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中 索引 擎 作为 互联 网 发 展 中 至 关 重 要 的 一 种 应 用 ， 已 经 成 为 互联 网 各 个 领域 的 制高点 ， 其 
重要 性 不 言 而 喻 。 搜 索引 擎 领域 也 是 互联 网 应 用 中 不 多 见 的 以 核心 技术 作为 其 命脉 的 领域 ， 搜 
索引 警 各 个 子 系统 是 如 何 设 计 的 ? 这 成 为 广大 技术 人 员 和 搜索 引擎 优化 人 员 密 切 关 注 的 内 容 。 
本 书 的 最 大 特点 是 内 容 新 颖 全 面 而 又 通俗 易 懂 。 对 于 实际 搜索 引擎 所 涉及 的 各 种 核心 技术 
都 有 全 面 细致 的 介绍 ， 除 了 作为 搜索 系统 核心 的 网 络 息 虫 、 索 引 系统 、 排 序 系统 、 链 接 分 析 及 
用 户 分 析 外 ， 还 包括 网 页 反 作 繁 、 组 存 管理 、 网 页 去 重 技术 等 实际 搜索 引擎 必须 关注 的 技术 ， 
同时 用 相当 大 的 篇 幅 讲解 了 云 计 算 与 云 存 储 的 核心 技术 原理 。 另 外 ， 本 书 也 密切 关注 搜索 引擎 
发 展 的 前 沿 技术 : Google 的 咖啡 因 系 统 及 Megastore 等 云 计 算 新 技术 、 百 度 的 暗 网 抓 取 技术 阿拉 
了 丁 计划 、 内 容 农场 作 弊 、 机 器 学 习 排 序 等 。 诸 多 新 技术 在 相关 章节 都 有 详细 讲解 ， 同 时 对 于 社 
会 化 搜索 、 实 时 搜索 及 情境 搜索 等 搜索 引擎 的 未 来 发 展 方向 做 了 技术 展望 。 为 了 增进 读者 的 理 
解 ， 全 书 大 量 引 入 形象 的 图 片 来 讲解 算法 原理 ， 相 信 读 者 会 发 现 原来 搜索 引擎 的 核心 技术 的 理 
解 比 原先 想象 的 要 简单 得 多 。 
本 书 适 合 所 有 对 搜索 引擎 技术 感 兴趣 的 人 们 ， 尤 其 对 于 相关 领域 的 学 生 、 对 搜索 引擎 核心 
技术 感到 好 奇 的 技术 人 员 、 从 事 搜索 引擎 优 化 的 相关 人 员 及 中 小 网 站 站 长 等 更 有 参考 价值 。 

















































































































































































































未 经 许可 ， 不 得 以 任何 方式 复制 或 抄袭 本 书 之 部 分 或 全 部 内 容 。 
版 权 所 有 ， 侵 权 必 究 。 
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互联 网 产品 形形色色 ， 有 产品 导向 的 ， 有 营销 导向 的 ， 也 有 技术 导 
加 的 ， 但 是 以 技术 见长 的 互联 网 产品 比例 相对 小 些 。 搜 索引 擎 是 目前 互 
联网 产品 中 最 具 技 术 含 量 的 产品 ， 如 果 不 是 唯一 ， 至 少 也 是 其 中 之 一 。 

经 过 十 几 年 的 发 展 ， 搜 索引 擎 已 经 成 为 互联 网 的 重要 入 口 之 一 ， 
Twitter 联合 创始 人 埃 文 :威廉 姆 斯 提出 了 “域名 已 死 论 ”: 好 记 的 域名 不 再 
重要 ， 因 为 人 们 会 通过 搜索 进入 网 站 。 搜 索引 擎 排名 对 于 中 小 网 站 流量 
和 
很 重要 。 


为 什么 会 有 这 本 书 


最 初 写 本 搜索 引擎 技术 书籍 的 想法 萌生 于 两 年 前 ， 当 时 的 场景 是 要 
给 团队 成 员 做 搜索 技术 培训 ， 但 是 我 找 志 了 相关 图 书 ， 却 没有 发 现 非 营 
合适 的 搜索 技术 入 门 书 籍 。 当 时 市 面 上 的 书籍 ， 要 么 是 信息 检索 理论 方 
面 的 专著 ， 理 论 性 太 强 不 易 懂 ， 而 且 真 正 讲 搜索 引擎 技术 的 章节 并 不 太 
多 ; 要 么 是 Lucene 代 码 分 析 这 种 过 于 实务 的 书籍 ， 像 搜索 引擎 这 种 充满 
算法 的 应 用 ， 直 接 分 析 开 源 系 统 代码 并 不 是 非常 高 效 的 学 习 方 式 。 所 以 
当时 萌生 了 写 一 本 既 通 众 易 懂 ， 适 合 没 有 相关 技术 背景 的 人 员 了 阅读 ， 又 
比较 全 面 ， 且 融入 最 新 技术 的 搜索 引擎 书籍 ， 但 是 真正 动手 开始 写 是 一 
年 前 的 事情 了 。 

写 书 前 我 给 上 自己 定 了 几 个 目标 。 首 先 内 容 要 全 面 ， 即 全 面 履 兰 搜 索 
引擎 相关 技术 的 主要 方面 ， 不 仪 要 包含 倒 排 索引 、 检 索 模 型 和 息 虫 等 常 
见 内 容 ， 也 要 详细 讲解 链接 分 析 、 网 页 反 作 弊 、 用 户 搜索 意图 分 析 、 云 
存储 及 网 页 去 重 ， 甚 至 是 搜索 引擎 缓存 等 内 容 ， 这 些 都 是 一 个 完整 搜索 
0 
能 些 。 

第 二 个 目标 是 通俗 易 懂 。 我 希望 没有 任何 相关 技术 背景 的 人 也 能 人 够 
通过 阅读 这 本 书 有 所 收获 ， 最 好 是 不 懂 技 术 的 同学 也 能 大 致 看 懂 。 这 个 
目标 看 似 简 单 ， 其 实 很 不 容易 达到 ， 我 也 不 敢 说 这 本 书 已 经 达到 了 此 目 
的 ， 但 是 确实 已 经 尽 自己 所 能 去 做 了 。 至 于 具体 的 措施 ， 则 包含 以 下 三 






































eis 
上 方面 。 

一 个 是 尽 可 能 减少 数学 公式 的 出 现 次 数 ， 除 非 不 得 已 不 罗列 公式 。 
虽说 数学 公式 其 简洁 之 美 ， 但 是 大 多 数 人 其 实 对 于 数学 符号 是 有 仆 惧 和 
逃避 心理 的 ， 多 年 前 我 也 有 类 似 心理 ， 所 以 但 凡 可 能 ， 尽 量 不 用 数学 公 
The 














一 个 是 尽 可 能 多 举例 子 ， 尤 其 是 一 些 比 较 难 理解 的 地 方 ， 需 要 
例子 来 增进 理解 。 

”还 有 一 个 是 多 画图 。 就 我 个 人 的 经 验 来 襄 ， 尺 管 算法 或 者 技术 
是 很 抽象 的 ， 但 是 如 果 深 入 理解 其 原理 ， 去 繁 就 简 ， 那 么 一 定 可 以 把 算 
法 转换 成 形象 的 图 片 。 如 果 不 能 在 头脑 中 形成 算法 直观 的 图 形 表 示 ， 说 
明 并 未 透彻 了 解 其 原理 。 这 是 我 判断 自己 是 否 深 入 理解 算法 的 一 个 私有 
标准 。 鉴 于 此 ， 本 书 中 在 讲解 算法 的 地 方 ， 大 量 采 用 了 算法 原理 网 ， 全 
书包 含 了 超过 300 幅 算法 原理 讲解 图 ， 相 信 这 对 于 读者 深入 理解 算法 会 
有 很 大 的 帮助 。 

第 三 个 目标 是 强调 新 现象 新 技术 ， 比 如 Google 的 咖啡 因 系 统 及 
Megastore E n FERA Pregl z Bh ARRE, AEREN Web 2.0 
Bee E 8 0 tae 
É o 





BUA HEERE, AN ZU RAB TIFA 
AGI eS IAT, R URRA LARK, HA SSNAN TS 
其 背后 的 基本 思想 和 出 发 点 。 我 接触 的 技术 人 员 很 多 ， 十 有 七 八 会 有 这 
个 特点 。 这 里 有 个 “ 道 林 讨 优 ?的 问题 ， 何 为 “ 道 ”? 何 为 “ 术 ”? 举 个 例子 
的 话 ，《 和 孙子 兵法 》 是 道 ， 而 《三 十 六 计 》 则 为 术 。“ 道 ”所 述 ， 是 宏观 
的 、 原 理性 的 、 长 久 不 变 的 基本 原理 ， 而 “ 术 ” 则 是 在 遵循 基本 原理 基础 
上 的 有 具体 手段 和 措施 ， 有 具有 易 变 性 。 技 术 也 是 如 此 ， 算 法 本 号 的 细节 
是“ 术 ”， 算 法 体现 的 基本 思想 则 是 “ 道 ”， 知 “ 道 ” 而 学 “ 术 ”， 两 者 虽 不 可 
偏 废 ， 但 是 大 要 选择 优先 级 的 话 ， 无 疑 我 会 选择 先 “ 道 ”后 “ 术 ”。 

以 上 四 点 是 写 书 前 定 下 的 目标 ， 现 在 书写 完了 ， 也 许 很 多 地 方 不 能 
达到 最 初 的 期 望 ， 但 是 尽 了 力 就 好 。 写 书 的 过 程 很 辛苦 ， 起 码 比 我 原先 
想象 的 要 蔷 盏 ， 因 为 工作 繁忙 ， 所 以 只 能 每 天 早早 起 床 ， 再 加 上 周末 及 
节假日 的 时 间 来 完成 。 也 许 书 中 还 存在 这 样 那样 的 缺点 ， 但 是 我 可 以 无 
愧 地 说 写 这 本 书 是 有 诚意 的 。 


这 本 书 是 写 给 谁 的 











MAREE PAAR 2, WAAR Be aa 
1. 对 搜索 引擎 核心 算法 有 兴趣 的 技术 人 员 


搜索 引擎 的 整体 框架 是 怎样 的 ? 包含 哪些 核心 技术 ? 

网 络 疏 虫 的 基本 架构 是 什么 ? 常见 的 讨 取 策略 是 什么 ?什么 是 
ERER? 如 何 构建 分 布 式 爬 虫 ? 百度 的 阿拉 丁 计划 是 什么 ? 

什么 是 倒 排 索引 ? 如 何 对 倒 排 索引 进行 数据 压缩 ? 

搜索 引擎 如 何 对 搜索 结果 排序 ? 

什么 是 向 量 空间 模型 ? 什么 是 概率 模型 ? 什么 是 BM25 模 型 ? 什 
么 是 机 器 学 习 排序 ? 它们 之 间 有 何 异 同 ? 

”PageRank 和 HITS 算 法 是 什么 关系 ? 有 何 异 同 ? SALSA 算 法 是 什 

么 ? Hilltop 算 法 又 是 什么 ? 各 种 链接 分 析 算 法 之 间 是 什么 关系 ? 

如 何 识别 搜索 用 户 的 真实 搜索 意图 ?用 户 搜索 目的 可 以 分 为 几 
K? 什么 是 点 击 图 ?什么 是 查询 会 话 ? 相 关 搜 索 是 如 何 做 到 的 ? 

为 什么 要 对 网 页 进行 去 重 处 理 ? 如 何 对 网 页 进行 去 重 ? 哪 种 算 
法 效果 较 好 ? 

搜索 引擎 缓存 有 几 级 结构 ? 核心 策略 是 什么 ? 

什么 是 情境 搜索 ? 什么 是 社会 化 搜索 ?什么 是 实时 搜索 ? 

搜索 引擎 有 哪些 发 展 趋势 ? 
; 如 果 您 对 其 中 三 个 以 上 的 问题 感 兴趣 ， 那 么 这 本 书 就 是 为 您 而 写 
Jo 


2. 对 云 计算 与 云 存 储 有 兴趣 的 撤 术 人 员 


什么 是 CAP 原 理 ? 什么 是 ACID 原理 ? 它们 之 间 有 什么 异同 ? 
Google 的 整套 云 计 算 框 架 包 含 哪些 技术 ?Hadoop 系 列 和 Google 
的 云 计算 框架 是 什么 关系 ? 
”Google 的 三 驾 马 车 GFS、BigTable、MapReduce 各 自 代 表 什 么 含 
L? 是 什么 关系 ? 
Google 的 咖啡 因 系 统 的 基本 原理 是 什么 ? 
Google 的 Pregel 计 算 模 型 和 MapReduce 计 算 模 型 有 什么 区 别 ? 
Google 的 Megastore 云 存储 系统 和 BigTable 是 什么 关系 ? 
































亚马逊 公司 的 Dynamo 系 统 是 什么 ? 

雅虎 公司 的 PNUTS 系 统 是 什么 ? 

Facebook 公 司 的 Haystack 存 储 系统 适合 应 用 在 什么 场合 ? 
如 果 您 对 上 述 问 题 感 兴趣 ， 相 信 可 以 从 书 中 找到 答案 。 


3. 从 事 搜索 引擎 优化 的 网 络 营销 人 员 及 中 小 网 站 站 长 
搜索 引擎 的 反 作 浆 策略 是 怎样 的 ?如 何 进 行 优化 避免 被 认为 是 
re 


ie 


搜索 引擎 如 何 对 搜索 结果 排序 ? 链接 分 机 和 内 容 排序 是 什么 关 


什么 是 内 容 农 场 ? 什么 是 链接 农场 ? 它们 是 什么 关系 ? 
什么 是 Web 2.076 BE? 有 哪些 常见 手法 ? 
: 什么 是 SpamRank? 什么 是 TrustRank? 什么 又 是 BadRank? 它们 
是 什么 关系 ? 
咖啡 因 系 统 对 网 页 排名 有 何 影 响 ? 
最 近 有 一 批 电子 商务 网 站 针对 搜索 引擎 优化 ， 结 果 被 Google 认 为 是 
黑 帽 SEO 而 导致 搜索 排名 降 权 ， 如 何 避 免 这 种 情况 ?从事 相关 行业 的 营 
销 人 员 和 网 站 站 长 应 该 深入 了 解 搜索 引擎 反 作 弊 的 基本 策略 和 方法 ， 甚 
至 是 网 页 排名 算法 等 搜索 引擎 核心 技术 。SEO 技 术 说 到 旗 其 实 很 简单 ， 
虽然 不 断 发 生变 化 ， 但 是 很 多 原理 性 的 策略 总 是 相似 的 ， 万 变 不 离 其 
宗 ， 深 入 了 解 搜索 引擎 相关 技术 原理 将 形成 您 的 行业 竞争 优势 。 


4, “作者 目 已 

我 的 记性 不 太 好 ， 往 往 一 段 时 间 内 了 解 的 技术 ， 时 隔 几 年 后 束 很 模 
糊 了 ， 所 以 这 本 书 也 是 为 我 自己 写 的 ， 以 作为 技术 备查 手册 。 沈 利 也 参 
与 了 本 书 的 部 分 编写 工作 。 
致谢 


感谢 博文 视点 的 付 蹇 编辑 ， 没 有 她 也 就 没有 本 书 的 面世 ， 付 编辑 在 
阅 稿 过 程 中 提出 的 细致 入 微 的 改进 点 对 我 帮助 甚大 。 





感谢 翻 开 此 书 的 读者 ， 如 果 您 在 阅读 本 书 的 过 程 中 发 现 一 些 粥 漏 或 
者 错误 ， 或 者 是 意见 建议 ， 和 希望 您 能 够 不 音 让 我 知晓 ， 我 会 守 在 
mailjunlin@gmailcom 这 个 信箱 劳 敬 候 您 的 来 信 ， 如 果 给 我 微 博 发 信 也 
非常 欢迎 http:Wwww.weibo.com/malefactor。 

特别 感谢 我 的 妻子 ， 在 近 一 年 的 写作 过 程 中 ， 我 几乎 把 能 用 的 所 有 
业余 时 间 都 投入 在 本 书 的 写作 上 ， 她 为 了 不 让 我 分 心 ， 承 担 了 所 有 的 家 
务 ， 不 介意 没有 时 间 陪 她 ， 这 本 书 的 诞生 且 算 是 送 她 的 一 个 礼物 吧 。 

于 我 而 言 ， 这 本 书 的 写作 是 一 个 辛 杏 而 欣喜 的 过 程 ， 有 如 旅人 远 
行 ， 涉 水 跨 山 之 际 抬 头 远 姚 ， 总 能 看 到 曾经 包 略 的 记 施 丽 景 ， 大 您 在 阅 
读本 书 的 过 程 中 也 能 有 此 体会 ， 那 就 是 我 的 荣 坟 了 。 














张 俊 林 
2011 年 6 月 


PIE ”搜索 引擎 及 其 拉 术 架构 


“天 地 玄黄 ”宇宙 洪 殉 
HA BUR Jet WGK 
RRA MKA 
HR EE Y pH 
云 腾 致 十 Fea AA 
金 生 丽 水 EE EK” 





@ (T72) 








搜索 引擎 已 经 及 展 为 每 个 人 上 网 都 离 不 开 的 重要 工具 ， 但 是 为 何 搜 
索引 擎 有 着 如 此 重要 的 地 位 ? 其 技术 发 展 历程 是 怎样 的 ? 其 基本 目标 古 
什么 ? 核心 问题 又 是 什么 ? 基本 技术 架构 如 何 ? 本 章 内 容 即 给 出 上 述 问 
题 的 答案 ， 以 使 读者 对 搜索 引擎 有 个 宏观 的 理解 。 


1.1 搜索 引擎 为 何 重 要 


搜索 引擎 依 托 于 互联 网 ， 互 联网 的 医 动 友 展 是 搜索 引擎 产品 与 技术 
逐步 成 熟 的 大 背景 。 离 开 互 联网 ， 搜 索引 擎 将 无 从 谈 起 。 


1.1.1 互联 网 的 发 展 


20 世 纪 90 年 代 初 期 是 互联 网 后 期 获得 大 规模 发 展 的 起 爆 点 ， 之 所 以 
如 此 ， 是 有 其 技术 背景 和 社会 背景 的 。 

1991 年 ，Tim Bemers-Lee 将 超 文本 的 概念 引入 互联 网 ， 同 时 推出 了 
WwWW 秩 形 、 配 套 的 HTTP 传 输 协 议 及 相应 的 Web 服务 器 技术 。1993 
年 ， 第 一 个 图 形 浏览 器 mosaic 诞 生 ， 网 页 浏览 客户 端 趋 于 成 熟 。 这 些 技 
术 与 产品 为 互联 网 的 快速 普及 和 发 展 做 好 了 技术 准备 ， 互 联网 用 户 开 始 
从 最 初 的 军队 和 高 校 等 科研 机 构 普 及 到 普通 个 人 用 户 ， 为 接 下 来 互联 网 
的 商业 化 大 规模 发 展 况 定 了 技术 綦 础 。 

1992 年 美国 副 总 统 戈 尔 提 出 “信息 高 速 公 路 计划 ”原型 提案 ，1993 年 
































克林顿 总 统 全 力 推 动 该 计划 的 实施 ， 以 作为 振兴 美国 经 济 的 重要 增长 
点 ， 由 此 爆发 了 互联 网 超常 规 发 展 的 黄金 十 年 ， 尽 管 2002 年 后 互联 网 泡 
沫 破裂 ， 但 是 该 计划 催生 了 一 大 批 基于 软件 和 互联 网 的 高 科技 公司 。 

1993 年 起 ， 全 球 互联 网 进入 高 速 发 展期 ，1994 年 全 球 主机 数量 首次 
超过 300 万 台 ，1995 年 超过 600 万 台 ， 之 后 以 更 快 的 加 速度 进入 长 期 快速 
成 长 通道 ， 如 图 1-1 所 示 。 互 联网 用 户 也 是 如 此 ， 图 1-2 显 示 了 互联 网 用 
户 的 快速 增长 趋势 。 
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图 1-1 互联 网 主机 数量 增长 情况 (1995—2009) 
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图 1-2 互联 网 用 户 增长 情况 (1995—2010) 
1.1.2 ”商业 搜索 引擎 公司 的 发 展 


搜索 引擎 的 产生 和 发 展 ， 与 互联 网 的 过 勃发 展 这 个 大 背景 是 密 不 可 
分 的 。 在 互联 网 发 展 初 期 ， 一 般 互 联网 用 户 最 篆 用 的 应 用 仅 是 电子 邮 
箱 ， 而 随 着 WWW 相 关 协 议和 产品 的 逐步 成 部 ， 网 站 拥有 者 制作 和 发 布 
网 页 信息 的 成 本 急剧 下 降 。 而 PC 电脑 及 图 形 化 浏览 器 的 普及 ， 使 得 普 
通用 户 浏览 信息 成 本 急剧 降低 。 再 加 上 网 络 基础 设施 的 大 量 投入 ， 使 得 
带宽 等 不 断 加 大 。 这 几 个 因素 交互 作用 ， 导 致 互联 网 上 的 信息 产生 爆炸 
性 增长 。 在 信息 量 快 速 增长 的 情况 下 ， 如 何 能 够 找到 满足 用 户 需求 的 网 
页 内 容 就 日 益 成 为 越 来 越 重要 的 问题 。 信 息 增 长 速度 越 快 ， 用 户 需 求 越 
迫切 。 大 的 搜索 引擎 公司 就 是 在 这 个 用 户 需 求 背景 下 ， 从 建立 到 逐步 壮 
大 ， 放 至 发 展 到 今天 搜索 引擎 成 为 最 重要 的 互联 网 的 应 用 。 

1995 年 是 搜索 引擎 商业 公司 发 展 的 重要 起 点 ， 其 对 应 的 背景 是 : H 
联网 上 的 Web 站 点 数量 首次 超过 100 万 ， 此 时 普通 用 户 已 经 无 法 依赖 手 
工 浏览 的 方式 来 获得 目 己 想 要 的 信息 。 在 这 一 年 产生 了 很 多 风云 一 时 的 
早期 搜索 引擎 公司 。Yahoo、InfoSeek、Fast Search, AltaVista, Excite 























等 曾经 非常 著名 的 搜索 引擎 公司 都 创建 于 1995 年 。 

Yahoo 依 靠 人 工 编辑 导航 目录 ， 将 互联 网 上 重要 的 站 点 分 门 别 类 整 
理 好 ， 满 足 了 人 们 碍 找 重 要 网 站 的 需求 ， 可 谓 应 时 而 生 ， 从 此 快速 成 长 
为 最 著名 的 搜索 和 门户 网 站 。 其 他 搜索 引擎 公司 则 提供 基于 传统 信息 检 
索 系统 的 搜索 服务 ， 也 都 获得 了 快速 成 长 。 

随 着 互联 网 的 进一步 快速 发 展 ， 信 息 的 爆炸 性 增长 ， 已 有 的 搜索 引 
擎 服务 提供 商 所 提供 的 搜索 服务 质量 并 无 大 的 改善 ， 逐 渐 不 能 满足 用 户 
的 需求 。Google 于 1998 年 成 立 ， 以 PageRank 链 接 分 析 等 新 技术 大 幅度 提 
高 了 搜索 质量 ， 之 后 高 速 发 展 并 抢占 了 绝 大 多 数 搜索 引擎 市 场 ， 成 长 为 
目前 最 重要 的 互联 网 公司 之 一 。 百 度 则 依靠 本 地 化 优势 ， 成 为 中 国 国 内 
最 强势 的 搜索 引擎 服务 提供 商 。 尽 管 2000 年 后 陆续 有 大 小 公司 进入 搜索 
e T 


1.1.3 搜索 引擎 的 重要 地 位 


搜索 引擎 已 成 为 互联 网 最 重要 的 应 用 之 一 ， 这 一 点 至 无 疑 议 ， 这 也 
是 为 何 国内 各 大 互联 网 公司 也 希望 切入 搜索 市 场 的 主要 原因 。 那 么 ， 为 
何 搜索 引擎 如 此 重要 ? 

正 像 前 文 所 述 ， 互 联网 信息 量 在 过 去 15 年 获得 了 爆炸 性 增长 ， 信 息 
过 载 的 问题 就 目前 来 说 非常 严重 ， 随 着 互联 网 个 性 化 的 发 展 趋势 逐步 展 
现 ， 普 通用 户 发 布 信息 的 成 本 越 来 越 低 ， 这 个 问题 将 会 更 加 严重 。 这 是 
搜索 引擎 相关 应 用 越 来 越 重要 的 一 个 基础 背景 。 搜 索 是 目前 解决 信息 过 
载 的 相对 有 效 方式 ， 在 没有 更 有 效 的 蔡 代 解决 方式 出 来 之 前 ， 搜 索引 擎 
作为 互联 网 网 站 和 应 用 的 入 口 及 处 于 行业 制高点 的 重要 地 位 只 会 逐步 加 
强 。 

尽管 不 论 国际 还 是 国内 出 现 了 一 种 新 的 现象 ， 即 成 功 的 新 互联 网 公 
司 屏蔽 搜索 引擎 公司 爬虫 ， 比 如 Facebook 对 Google 的 屏蔽 ， 国 内 电子 商 
务 站 点 淘宝 对 百度 的 屏 珊 。 但 是 这 种 现象 仅仅 是 商业 公司 之 间 的 竞争 策 
上 略 ， 也 可 看 做 是 垂直 搜索 和 通用 搜索 的 竞争 ， 但 并 非 搜 索 应 用 与 非 搜 索 
应 用 的 竞争 。 即 便 是 Facebook 和 淘宝 ， 面 对 目 己 用 户 产 生 的 海量 数据 ， 
依然 要 依靠 搜索 来 为 用 户 提 供 满意 的 服务 ， 区 别 仅 仅 在 于 是 自己 来 提供 
T 
证 据 。 







































































12 搜索 引擎 技术 友 展 史 
从 搜索 引擎 所 采取 的 技术 来 说 ， 可 以 将 搜索 引擎 技术 的 发 展 划分 为 


4 个 时 代 如 图 1-3 所 示 。 
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图 1-3 ”搜索 引擎 技术 发 展 史 
1.2.1 史前 时 代 : 分 类 目录 的 一 代 


这 个 时 代 也 可 以 称 为 "导航 时 代 ”，Yahoo 和 国内 hao123 是 这 个 时 代 
的 代表 。 通 过 人 工 收集 整理 ， 把 属于 各 个 类 别 的 高 质量 网 站 或 者 网 页 分 
门 别 类 罗列 ， 用 户 可 以 根据 分 级 目录 来 得 找 高 质量 的 网 站 。 这 种 方式 是 
纯 人 工 的 方式 ， 并 未 采取 什么 高 深 的 技术 手段 。 

采取 分 类 目录 的 方式 ， 一 般 被 收录 的 网 站 质量 都 较 高 ， 但 是 这 种 方 
式 可 扩展 性 不 强 ， 绝 大 部 分 网 站 不 能 被 收录 。 


1.2.2 第 一 代 : 文本 检索 的 一 代 
文本 检索 的 一 代 采 用 经 典 的 信息 检索 模型 ， 比 如 布尔 模型 、 癌 量 空 























间 模 型 或 者 概率 模型 ， 来 计算 用 户 查 询 关 键 词 和 网 页 文本 内 容 的 相关 程 
度 。 网 页 之 间 有 丰富 的 链接 关系 ， 而 这 一 代 搜 索引 擎 并 未 使 用 这 些 信 
息 。 早 期 的 很 多 搜索 引擎 比如 AltaVista、Excite 等 大 都 采取 这 种 模式 。 

相 比 分 类 目录 ， 这 种 方式 可 以 收录 大 部 分 网 页 ， 并 能 够 按照 网 页 内 
容 和 用 户 查 询 的 匹配 程度 进行 排序 。 但 是 总 体 而 言 ， 搜 索 结 果 质 量 不 是 
很 好 。 


12.3 第 二 代 : 链接 分 析 的 一 代 


这 一 代 的 搜索 引擎 充分 利用 了 网 页 之 间 的 链接 关系 ， 并 深入 挖掘 和 
利用 了 网 页 链接 所 代表 的 含义 。 通 党 而 言 ， 网 页 链接 代表 了 一 种 推荐 关 
系 ， 所 以 通过 链接 分 析 可 以 在 海量 内 容 中 找 出 重要 的 网 页 。 这 种 重要 性 
本 质 上 是 对 网 页 流行 程度 的 一 种 衡量 ， 因 为 被 推荐 次 数 多 的 网 页 其 实 代 
表 了 其 具有 流行 性 。 搜 索引 擎 通过 结合 网 页 流行 性 和 内 容 相 似 性 来 改善 
搜索 质量 。 

Google 率 先 提出 并 使 用 PageRank 链 接 分 析 技 术 ， 并 大 获 成 功 ， 这 同 
时 引起 了 学 术 界 和 其 他 商业 搜索 引擎 的 关注 。 后 来 学 术 界 陆续 提出 了 很 
Ge eR ae eee ates 

采用 链接 分 析 能 够 有 效 改 善 搜索 结果 质量 ， 但 是 这 种 搜索 引擎 并 未 
考虑 用 户 的 个 性 化 要 求 ， 所 以 只 要 输入 的 碍 询 请 求 相 同 ， 所 有 用 户 都 会 
获得 相同 的 搜索 结果 。 另 外 ， 很 多 网 站 拥有 者 为 了 获得 更 高 的 搜索 排 
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1.2.4 第 三 代 : 用 户 中 心 的 一 代 


目前 的 搜索 引擎 大 都 可 以 归 入 第 三 代 ， 即 以 理解 用 户 需 求 为 核心 。 
不 同 用 户 即 使 输入 同一 个 查询 关键 词 ， 但 其 目的 也 有 可 能 不 一 样 。 比 如 
同样 输入 “苹果 ”作为 但 询 词 ， 一 个 妃 捧 iPhone 的 时 尚 青年 和 一 个 果农 的 
目的 会 有 相当 大 的 差距 。 即 使 是 同一 个 用 户 ， 输 入 相同 的 得 询 词 ， 也 会 
因为 所 在 的 时 间 和 场合 不 同 ， 需 求 有 所 变化 。 而 目前 搜索 引擎 大 都 致力 
于 解决 如 下 问题 : 如 何 能 够 理解 用 户 发 出 的 茶 个 很 短小 的 查询 词 背 后 包 
含 的 真正 需求 ， 所 以 这 一 代 搜索 引擎 称 之 为 以 用 户 为 中 心 的 一 代 。 

为 了 能 够 获取 用 户 的 真实 需求 ， 目 前 搜索 引擎 大 都 做 了 很 多 技术 方 
面 的 尝试 。 比 如 利用 用 户 发 送 查 询 词 时 的 时 间 和 地 理 位 置信 息 ， 利 用 用 



































户 过 去 发 出 的 查询 词 及 相应 的 点 击 记录 等 历史 信息 等 技术 手段 ， 来 试图 
理解 用 户 此 时 此 地 的 真正 需求 。 


1.3 搜索 引擎 的 3 个 目标 


搜索 引擎 可 以 说 是 目前 所 有 互联 网 应 用 里 技术 含量 最 高 的 一 种 ， 尽 
管 其 应 用 形式 非常 简单 : 用 户 输入 查询 词 ， 搜 索引 擎 返回 搜索 结果 。 但 
是 要 为 以 亿 计 数 的 互联 网 用 户 提 供 准 确 快速 的 搜索 结果 ， 里 面包 含 了 很 
多 技术 手段 。 总 的 来 说 ， 搜 索引 擎 技术 所 希望 达到 的 目标 可 以 归纳 为 : 
更 全 、 更 快 、 更 准 ， 如 图 1-4 所 示 。 




















图 1-4 搜索 引擎 3 个 目标 








所 谓 “ 更 全 ”， 是 从 其 索引 的 网 页 数量 而 言 的 ， 目 前 任意 一 个 商业 搜 
索引 擎 索引 网 页 的 上 柳 兰 范 围 都 只 占 了 互联 网 页 面 的 一 部 分 ， 可 以 通过 提 
高 网 络 爬 虫 相关 技术 来 达到 此 目标 。 








“更 快 > 这 个 目标 则 贯穿 于 搜索 引擎 的 大 多 数 技术 方向 ， 比 如 索引 相 
关 技 术 、 绥 存 等 技术 的 提出 部 是 直接 为 了 达到 此 目的 。 而 其 他 很 多 技术 
也 间接 为 此 服务 ， 即 使 是 分 布 式 海量 云 存储 平台 ， 也 是 为 了 能 够 处 理 海 
量 的 网 页 数据 ， 以 达到 对 “更 全 ”和 “更 快 ”这 两 个 目标 的 啊 应 和 支持 。 

在 这 3 个 目标 中 ， 如 何 使 得 搜索 结果 “更 准 ” 是 最 为 关键 的 目标 。 无 
论 是 排序 技术 也 好 ， 还 是 链接 分 析 技 术 也 好 ， 换 或 是 用 户 研究 等 技术 ， 
最 终 部 是 为 了 使 搜索 结果 更 加 准确 ， 以 此 增强 用 户 体 验 。 对 于 一 个 搜索 
引擎 来 将 ， 达 到 “更 全 ?与 “更 快 ? 可 以 使 其 不 落后 于 同类 产品 ， 但 是 如 宋 
能 够 做 到 “更 准 ”， 则 能 够 构建 核心 竞争 能 


1.4 搜索 引擎 的 3 个 核心 问题 


如 上 所 述 ， 搜 索引 擎 如 何 能 够 搜 得 更 准 是 其 最 重要 的 目标 ， 那 么 如 
何 才能 使 得 搜索 结果 更 准确 ? 这 里 面 涉及 了 3 个 核心 问题 。 


1.4.1 3 个 核心 问题 

1 用 户 真正 的 需求 是 什么 

搜索 引擎 用 户 输入 的 查询 请 求 非常 简短 ， 碍 询 的 平均 长 度 是 2.7 个 
单词 。 如 何 从 如 此 短 的 查询 请 求 里 获知 隐藏 其 后 的 真实 用 户 需 求 ? 这 是 


搜索 引擎 首先 需要 解决 的 非常 重要 的 问题 。 如 果 不 能 获取 用 户 真正 的 搜 
T E E R 
于 事 。 



































从 男 外 一 个 角度 看 ， 即 使 是 同一 个 查询 词 ， 不 同 用 户 的 搜索 目的 是 
不 同 的 ， 如 何 识 别 这 种 差异 ? 如 条 更 进一步 ， 即 使 是 同一 个 用 户 发 出 的 
同一 个 得 询 词 ， 也 可 能 因为 用 户 所 处 场景 不 同 ， 其 目的 存在 差异 ， 又 如 
何 识别 ? 所 有 这 些 都 是 搜索 引擎 需要 解决 的 核心 问题 ， 即 用 户 在 此 时 此 
地 发 出 茶 个 查询 ， 他 的 真实 搜索 意图 到 撒 是 什么 。 


2 哪些 信息 是 和 用 户 需 求 真 正 相 关 的 
上 述 第 一 个 核心 问题 是 从 用 尸 需求 角度 出 发 的 ， 另 外 两 个 核心 问题 


则 是 从 数据 角度 考虑 的 。 搜 索引 擎 本 质 上 是 一 个 匹配 过 程 ， 即 从 海量 数 
据 里 面 找到 能 够 匹配 用 户 需 求 的 内 容 。 所 以 ， 在 明确 用 户 真实 意图 这 个 











前 提 条 件 做 到 后 ， 如 何 找到 能 够 满足 用 户 需 求 的 信息 则 成 为 天 键 因 素 。 

判断 内 容 和 用 户 碍 询 关 键 词 的 相关 性 ， 一 直 是 信息 检索 领域 的 核心 
研究 课题 ， 不 断 提出 的 信息 检索 模型 即 在 试图 解决 这 个 问题 。 相 关 研 究 
历时 近 60 年 ， 尽 管 不 断 有 新 方法 提出 ， 检 索 效 果 总 体 而 言 也 在 逐步 改 
进 ， 但 是 这 个 领域 的 基本 指导 思想 还 是 基于 关键 词 的 匹配 ， 包 括 现 在 所 
人 
AEF o 

如 何 能 够 在 这 个 核心 问题 上 有 所 突破 ? 这 个 问题 将 会 越 来 越 重要 ， 
而 从 关键 词 匹配 到 让 机 器 真正 理解 信息 所 代表 的 含义 是 解决 这 个 问题 必 
须 迈 过 的 门 榄 。 从 目前 来 看 ， 尺 管 包括 人 工 智能 在 内 的 很 多 相关 研究 领 
Gl ae et E meee 
路 。 




















3 哪些 信息 是 用 户 可 以 信赖 的 


搜索 本 质 上 是 找到 能 够 满足 用 户 需 求 的 信息 ， 尺 管 相关 性 是 衡量 信 
恩 是 否 满 足 用 户 需 求 的 一 个 重要 方面 ， 但 并 非 全 部 。 信 息 是 任 值 得 信赖 
是 男 外 一 个 重要 的 衡量 标准 。 

搜索 引擎 需要 处 理 的 信息 对 象 是 互联 网 上 任意 用 户 发 布 的 内 容 ， 但 
是 内 容 发 布 者 所 发 布 内 容 是 否 可 信 并 无 明确 判断 标准 。 这 其 间 存 在 恶意 
的 信息 发 布 者 故意 至 曲 事实 的 情况 ， 也 有 信息 发 布 者 无 心 的 错误 。 在 同 
一 个 查询 的 搜索 结果 内 ， 完 全 可 能 存在 相互 矛盾 的 搜索 答案 ， 此 时 信息 
的 可 信 性 即 成 为 突出 问题 。 

比如 用 户 想 到 东 一 餐馆 就 餐 ， 在 做 出 消费 诀 定 前 ， 在 网 上 搜索 曾 在 
此 和 餐馆 就 餐 的 用 户 的 过 往 评 论 ， 以 此 辅助 决策 。 而 搜索 到 的 相关 内 容 ， 
完全 有 可 能 是 餐馆 故意 发 布 的 一 些 好 评 信息 ， 以 此 误导 消费 者 。 但 是 如 
果 信 息 友 布 者 是 该 用 户 的 朋友 ， 那 么 信息 的 可 信 性 就 会 大 大 增加 。 

从 茶 种 角度 看 ， 链 接 分 析 之 所 以 能 够 改善 搜索 结果 ， 可 以 认为 是 对 
信息 的 可 信赖 度 做 出 的 评判 。 即 将 网 页 的 重要 性 作为 是 否 可 信赖 的 一 个 
判断 标准 ， 返 回 重要 网 页 即 是 返回 可 信赖 网 页 。 


14.2 与 技术 发 展 的 关系 
1.3 节 对 搜索 引擎 技术 发 展 史 做 了 归纳 整理 ， 对 照 本 节 提 到 的 搜索 


引擎 3 个 核心 问题 ， 可 以 看 到 不 同 历 史 发 展 阶段 技术 的 不 同 侧重 点 ， 以 
及 搜索 引擎 技术 螺旋 式 上 升 的 及 展 趋势 ， 如 图 1-5 所 示 。 












































图 1-5 不 同 发 展 时 期 的 核心 问题 


对 于 分 类 目录 式 搜 索引 擎 ， 其 重点 关注 的 是 信息 的 可 信赖 性 ， 因 为 
分 类 目录 内 收录 的 网 站 经 过 人 工 精心 筛选 ， 所 以 具有 很 强 的 可 信赖 性 ， 
但 是 对 于 用 户 需 求 和 相关 性 是 不 做 考虑 的 ， 完 全 重用 户 目 由 浏览 来 确 
Eo 

对 于 第 一 代 文本 检索 式 搜 索引 擎 ， 其 重点 关注 的 是 但 询 关 键 词 和 网 
页 内 容 的 相关 性 。 这 种 搜索 方式 假定 用 户 输 入 的 查询 关键 词 就 是 用 户 的 
真实 需求 ， 很 明显 这 种 假设 很 难 成 立 。 另 外 ， 这 种 搜索 方式 对 于 信息 的 
可 信 度 也 未 做 任何 识别 。 

第 二 代 搜 索引 擎 引入 链接 分 析 技 术 ， 链 接 关 系 代表 了 一 种 推荐 仿 
义 ， 而 获得 越 多 推荐 的 网 页 其 链接 分 析 得 分 越 高 ， 这 其 实 是 一 种 对 网 页 
可 信和 度 的 度量 标准 。 同 时 ， 第 二 代 搜 索引 擎 也 利用 了 文本 检索 模型 ， 来 
计算 碍 询 和 网 页 内 容 的 相关 性 。 所 以 第 二 代 搜 索引 擎 是 综合 考 夸 了 信息 
的 相关 性 和 可 信和 性 的 ， 但 是 同样 没有 对 用 户 需 求 做 关注 。 

第 三 代 搜 索引 擎 的 重点 则 是 用 户 的 真实 需求 ， 其 他 方面 则 兼顾 了 第 












































二 代 搜 索引 擎 的 优点 ， 即 第 三 代 搜 索引 警 同时 考虑 了 3 个 核心 问题 。 


1.5 ”搜索 引 敬 的 拉 术 架构 


作为 互联 网 应 用 中 最 具 技 术 合 量 的 应 用 之 一 ， 优 秀 的 搜索 引擎 需要 
杂 的 架构 和 算法 ， 以 此 来 支撑 对 海量 数据 的 获取 、 存 储 ， 以 及 对 用 户 
查询 的 快速 而 准确 地 啊 应 。 本 节 主 要 从 宏观 上 介绍 搜索 引擎 的 整体 架构 
和 各 个 组 成 模块 的 功能 。 

从 架构 层面 ， 搜 索引 擎 需要 能 够 对 以 百 亿 计 的 海量 网 页 进行 获取 、 
存储 、 处 理 的 能 力 ， 同 时 要 保证 搜索 结果 的 质量 。 如 何 获取 、 存 储 并 计 
算 如 此 海量 的 数据 ? 如 何 快速 啊 应 用 户 的 查询 ? 如何 使 得 搜索 结果 能 够 
满足 用 户 的 信息 需求 ? 这 些 都 是 搜索 引擎 面 对 的 技术 挑战 。 

图 1-6 是 一 个 通用 的 搜索 引擎 架构 示意 图 。 搜 索引 擎 由 很 多 技术 模 
ee en ee eee 











图 1-6 ”搜索 引擎 架构 
搜索 引擎 的 信息 源 来 自 于 互联 网 网 页 ， 通 过 网 络 爬 虫 将 整个 互联 网 











的 信息 获取 到 本 地 ， 因 为 互联 网 页 面 中 有 相当 大 比例 的 内 容 是 完全 相同 
或 者 近似 重复 的 , “网 页 去 重 ? 横 块 会 对 此 做 出 检测 ， 并 去 除 重复 内 容 。 

在 此 之 后 ， 搜 索引 擎 会 对 网 页 进行 解析 ， 抽 取出 网 页 主体 内 容 ， 以 
及 页 面 中 包含 的 指 癌 其 他 页 面 的 链接 。 为 了 加 快 啊 应 用 户 碍 询 的 速度 ， 
网 页 内 容 通 过 “ 倒 排 索引 ”这 种 高 效 查 询 数 据 结构 来 保存 ， 而 网 页 之 间 的 
链接 关系 也 会 予以 保存 。 之 所 以 要 保存 链接 关系 ， 是 因为 这 种 关系 在 网 
页 相关 性 排序 阶段 是 可 利用 的 ， 通 过 “链接 分 析 ” 可 以 判断 页 面 的 相对 重 
要 性 ， 对 于 为 用 户 提 供 准 确 的 搜索 结果 帮助 很 大 。 

由 于 网 页 数量 大 多 ， 搜 索引 擎 不 仅 需要 保存 网 页 原始 信息 ， 还 要 存 
储 一 些 中 间 的 处 理 络 果 ， 使 用 单 台 或 者 少量 的 机 需 明 显 是 不 现实 的 。 
Google 等 商业 搜索 引擎 为 此 开 肥 了 一 整套 云 存储 与 云 计算 平 合 ， 使 用 数 
以 万 计 的 普通 PC 搭建 了 海量 信息 的 可 靠 存储 与 计算 架构 ， 以 此 作为 搜 
索引 擎 及 其 相关 应 用 的 基础 文 撑 。 优 秀 的 云 存 储 与 云 计 算 平 台 已 经 成 为 
大 型 商业 搜索 引擎 的 核心 竞争 力 。 

上 面 所 述 是 搜索 引擎 如 何 获取 并 存储 海量 的 网 页 相关 信息 ， 这 些 功 
能 因为 不 需要 实时 计算 ， 所 以 可 以 被 看 做 是 搜索 引擎 的 后 台 计 算 系 统 。 
搜索 引擎 的 最 重要 目的 是 为 用 尸 提供 准 确 全 面 的 搜索 结 末 ， 如 何 啊 应 用 
户 得 询 并 实时 地 提供 准确 结果 构成 了 搜索 引 车 前 台 计 算 系 统 。 

当 搜 索引 擎 接收 到 用 户 的 查询 词 后 ， 首 先 需 要 对 碍 询 词 进行 分 析 ， 
希望 能 够 结合 查询 词 和 用 户 信息 来 正确 推导 用 户 的 真正 搜索 意图 。 在 此 
之 后 ， 首 移 在 缓存 中 碍 找 ， 搜 索引 擎 的 缓存 系统 存储 了 不 同 的 查询 意图 
对 应 的 搜索 结果 ， 如 果 能 够 在 缓存 系统 找到 满足 用 户 需 求 的 信息 ， 则 可 
以 直接 将 搜索 结果 返回 给 用 户 ， 这 样 既 省 挥 了 重复 计算 对 资源 的 消耗 ， 
又 加 快 了 啊 应 速度 ; 如 果 保 存在 缓存 的 信息 无 法 满足 用 户 需 求 ， 搜 索引 
黎 需 要 调用 “网 页 排序 ”模块 功能 ， 根 据 用 户 的 全 询 实 时 计算 哪些 网 页 是 
满足 用 户 信 息 需 求 的 ， 并 排序 输出 作为 搜索 结果 。 而 网 页 排 友 最 重要 的 
两 个 参考 因素 中 ， 一 个 是 内 容 相似 性 因素 ， 即 哪些 网 页 是 和 用 户 人 查询 密 
切 相 关 的 ; 力 外 一 个 是 网 页 重要 性 因素 ， 即 哪些 网 页 是 质量 较 好 或 者 相 
对 重要 的 ， 这 点 往往 可 以 从 链接 分 析 的 结果 获得 。 结 合 以 上 两 个 考 夸 因 
素 ， 束 可 以 对 网 页 进行 排序 ， 作 为 用 户 查 询 的 搜索 结 末 。 

除了 上 述 的 子 功能 模块 ， 搜 索引 擎 的 “有 反 作 潍 ”模块 成 为 日 益 重 要 的 
功能 。 搜 索引 擎 作为 互联 网 用 户 的 上 网 入 口 ， 对 于 网 络 流量 的 引导 与 分 
流 至 关 重 要 ， 甚 至 可 以 说 起 了 决定 性 的 作用 。 于 是 ， 各 种 “作弊 ?方式 逐 
渐 流 行 ， 通 过 各 种 手段 将 网 页 的 搜索 排名 提高 到 与 其 网 页 质量 不 相称 的 
位 置 ， 这 会 严重 影响 用 户 的 搜索 体验 。 所 以 ， 如 何 目 动 发 现 作弊 网 页 并 
对 其 处 昼 ， 成 为 搜索 引擎 非常 重要 的 组 成 部 分 。 










































































第 2 章 PAER 


“满面 侍 灰 烟火 色 ， 两 叙 苍 苍 十 指 黑 。 
SLR SAVE? ERROR. 
可 怜 身 上 衣 正 单 ， 心 忧 炭 贱 愿 天 寒 。 
BOR) — ROE, BB EAR 
牛 困 人 饥 日 已 高 ， 市 南 门 外 泥 中 鞭 。 
居 出 两 骑 来 是 谁 ? 黄 衣 使 者 白 衫 儿 。 
手 把 文 书 口 称 救 ， 回 车 叱 牛 牵 问 北 。 
ER, TRT, ERSTE FE 
FMA- LR, RAPLARRA. ” 
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通用 搜索 引擎 的 处 理 对 象 是 互联 网 网 页 ， 目 前 网 页 数量 以 百 亿 计 ， 
所 以 搜索 引擎 首先 面临 的 问题 就 是 : 如 何 能 够 设计 出 高 效 的 下 载 系统 ， 
以 将 如 此 海量 的 网 页 数据 传送 到 本 地 ， 在 本 地 形成 互联 网 网 页 的 镜像 备 


份 





网 络 爬 虫 即 起 此 作用 ， 它 是 搜索 引擎 系统 中 很 关键 也 很 基础 的 构 
件 。 本 章 主 要 介绍 与 网 络 爬 虫 相 关 的 技术 ， 尽 管 朴 虫 技术 经 过 几 十 年 的 
发 展 ， 从 整体 框架 上 己 相 对 成 熟 ， 但 随 看 互联 网 的 不 断 友 展 ， 也 面临 着 
一 些 有 挑战 性 的 新 问题 。 


2.1 iA HES 


图 2-1 所 示 是 一 个 通用 的 爬虫 框架 流程 。 首 先 从 互联 网 页 面 中 精心 
选择 一 部 分 网 页 ， 以 这 些 网 页 的 链接 地 址 作为 种 子 URL， 将 这 些 种 子 
URL 放 入 待 抓 取 URL 队 列 中 ， 故 虫 从 待 抓 取 UREL 队 列 依次 读 取 ， 并 将 
URL 通 过 DNS 解 析 ， 把 链接 地 址 转换 为 网 站 服务 器 对 应 的 IP 地 址 。 然 后 
将 其 和 网 页 相对 路 径 名 称 交 给 网 页 下 载 器 ， 网 页 下 载 器 负责 页 面 内 容 的 
下 载 。 对 于 下 载 到 本 地 的 网 页 ， 一 方面 将 其 存储 到 页 面 库 中 ， 等 待 建立 
索引 等 后 续 处 理 ， 另 一 方面 将 下 载 网 页 的 URL 放 入 已 抓 取 UREL 队 列 中 ， 
这 个 队列 记载 了 扑 虫 系统 已 经 下 载 过 的 网 页 URL， 以 避免 网 页 的 重复 抓 

















取 。 对 于 刚 下 载 的 网 页 ， 从 中 抽取 出 所 包含 的 所 有 和 链接 信息 ， 并 在 已 抓 
取 URL 队 列 中 检查 ， 如 果 发 现 链接 还 没有 被 抓 取 过 ， 则 将 这 个 URL 放 入 
符 抓 取 URL 队 列 末尾 ， 在 之 后 的 抓 取 调 度 中 会 下 载 这 个 URL 对 应 的 网 
页 。 如 此 这 般 ， 形 成 循环 ， 直 到 待 抓 取 URL 队 列 为 空 ， 这 代表 着 爬虫 系 
统 已 将 能 够 抓 取 的 网 页 尽数 抓 完 ， 此 时 完成 了 一 轮 完 整 的 抓 取 过 程 。 


已 抓 取 URL 队 列 待 抓 取 URL 队 列 。 “种子 URL 





图 2-1 i A MG Ha HES 
WPM HR, TEER Fg EET PO OA TA EE, FA PAR 
有 专门 章节 讲解 ， 所 以 未 在 此 处 列 出 ， 详 情 请 参考 相关 章节 。 
上 述 是 一 个 通用 息 虫 的 整体 流程 ， 如 果 从 更 加 宏观 的 角度 考虑 ， 处 
于 动态 抓 取 过 程 中 的 爬虫 和 互联 网 所 有 网 页 之 间 的 关系 ， 可 以 大 致 像 如 
图 2-2 所 示 那 样 ， 将 互联 网 页 面 划 分 为 5 个 部 分 : 








图 2-2 互联 网 页 面 划 分 





Š 己 下 载 网 页 集合 : 不 虫 已经 从 互联 网 下 载 到 本 地 进行 索引 的 网 
页 集合 。 


oe 





已 过 期 网 页 集合 : AFAR A, ERTAIN H He 
较 长 时 间 ， 在 抓 取 过 程 中 ， 很 多 已 经 下 载 的 网 页 可 能 过 期 。 之 所 以 如 
此 ， 是 因为 互联 网 网 页 处 于 不 断 的 动态 变化 过 程 中 ， 所 以 易 产 生 本 地 网 
页 内 容 和 真实 互联 网 网 页 不 一 致 的 情况 。 

- 待 下 载 网 页 集合 : 即 处 于 图 2-1 中 待 抓 取 URL 队 列 中 的 网 页 ， 这 
些 网 页 即将 被 朴 虫 下 载 。 

可 知 网 页 集合 : 这 些 网 页 还 没有 被 朴 虫 下 载 ， 也 没有 出 现在 待 

抓 取 URL 队 列 中 ， 不 过 通过 已 经 抓 取 的 网 页 或 者 在 待 抓 取 UREL 队 列 中 的 
0 
引 。 














不 可 知 网 页 集合 : 有 些 网 页 对 于 怜 虫 来 说 是 无 法 抓 取 到 的 ， 这 
部 分 网 页 构成 了 不 可 知 网 页 集合 。 事 实 上 ， 这 部 分 网 页 所 占 的 比例 很 








从 理解 肘 虫 的 角度 看 ， 对 互联 网 网 页 给 出 如 上 划分 有 助 于 深入 理解 
搜索 引擎 息 虫 所 面临 的 主要 任务 和 挑战 。 

图 2-1 所 示 是 通用 的 息 虫 框 染 流 程 ， 绝 大 多 数 扑 虫 系统 遵循 此 尝 
程 ， 但 是 并 非 意味 着 所 有 不 虫 都 如 此 一 致 。 根 据 有 具体 应 用 的 不 同 ， 怜 里 
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WEHE (Batch Crawler) : 批量 型 候 虫 有 比较 明确 的 抓 取 
范围 和 目标 ， 当 讨 虫 达到 这 个 设 定 的 目标 后 ， 即 停止 抓 取 过 程 。 至 于 具 
体 目 标 可 能 各 异 ， 也 许 是 设 定 抓 取 一 定数 量 的 网 页 即 可 ， 也 许 是 设 定 抓 
取消 耗 的 时 间 等 ， 不 一 而 足 。 

- jee YE (Incremental Crawler) : 增 量 型 卜 虫 与 批量 型 疏 
果 不 同 ， 会 保持 持续 不 断 的 抓 取 ， 对 于 抓 取 到 的 网 页 ， 要 定期 更 新 ， 因 
为 互联 网 网 页 处 于 不 断 变化 中 ， 新 增 网 页 、 网 页 被 删除 或 者 网 页 内 容 更 
改 都 很 常见 ， 而 增 量 型 疏 虫 需要 及 时 反映 这 种 变化 ， 所 以 处 于 持续 不 断 
的 抓 取 过 程 中 ， 不 是 在 抓 取 新 网 页 ， 束 是 在 更 新 已 有 了 网页。 通用 的 商业 
搜索 引擎 爬虫 基本 都 属 此 类 。 

垂直 型 疏 虫 (Focused Crawler) : 垂直 型 疏 虫 关注 特定 主题 内 
容 或 者 属于 特定 行业 的 网 页 ， 比 如 对 于 健康 网 站 来 说 ， 只 需要 从 互联 网 
页 面 里 找到 与 健康 相关 的 页 面 内 容 即 可 ， 其 他 行业 的 内 容 不 在 考虑 范 
El, FERMI R— PRAMS SAEZ: 如 何 识别 网 页 内 容 是 否 属 
于 指定 行业 或 者 主题 。 从 节省 系统 资源 的 角度 来 说 ， 不 太 可 能 把 所 有 互 
KARA Pax RR ZAK, RRR ARAN, 141 
MG He FEIN ART Bet Be We HAST BUSES MG Ea SEU, FFR BARE 
抓 取 无 关 页 面 ， 以 达到 节省 资源 的 目的 。 垂 直 搜 索 网 站 或 者 垂直 行业 网 
站 往往 需要 此 种 类 型 的 爬虫 。 

本 章 主 要 讲述 增 量 型 仆 虫 ， 因 为 无 论 从 处 理 的 数据 量 上 来 讨 ， 还 是 
从 所 面临 的 技术 难度 来 讲 ， 这 种 类 型 的 爬虫 相对 而 言 都 要 复杂 一 些 ， 当 
然 ， 其 中 很 多 技术 对 于 其 他 两 种 类 型 的 爬虫 来 说 也 是 共通 的 。 


2.2 ”优秀 爬虫 的 特性 


对 于 不 同 的 应 用 来 说 ， 疏 虫 系 统 实现 方式 可 能 各 异 ， 但 是 实用 的 不 
虫 系 统 都 应 该 具备 以 下 几 种 特性 。 
高 性 能 


互联 网 的 网 页 数量 庞大 如 海 ， 所 以 爬虫 的 性 能 全 关 重 要 ， 这 里 的 性 
能 主要 是 指 仆 虫 下 载 网 页 的 抓 取 速度 ， 常 见 的 评价 方式 是 以 仆 虫 每 秒 能 
够 下 载 的 网 页 数量 作为 性 能 指标 ， 单 位 时 间 能 够 下 载 的 网 页 数量 越 多 ， 
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时 数据 结构 的 选择 很 关键 。 比 如 对 于 待 抓 取 URL 队 列 和 已 抓 取 URL 队 
列 ， 因 为 URL 数 量 非 常 大 ， 不 同 实现 方式 性 能 表现 过 寞 ， 所 以 高 效 的 数 
据 结 构 对 于 扑 虫 性 能 影响 很 大 。 


可 扩展 性 


如 上 所 述 ， 怜 虫 需 要 抓 取 的 网 页 数量 巨大 ， 即 使 单个 朴 虫 的 性 能 很 
高 ， 要 将 所 有 网 页 都 下 载 到 本 地 ， 仍 然 需要 相当 长 的 时 间 周 期 ， 为 了 能 
够 尽 可 能 缩短 抓 取 周期 ， 爬 虫 系 统 应 该 有 很 好 的 可 扩展 性 ， 即 很 容易 通 
过 增加 抓 取 服 务 器 和 有 息 虫 数量 来 达到 此 目的 。 

目前 实用 的 大 型 网 络 爬 虫 一 定 是 分 布 式 运行 的 ， 即 多 合 服务 器 专 做 
抓 取 ， 每 台 服 务 器 部 署 多 个 爬虫 ， 每 个 朴 虫 多 线程 运行 ， 通 过 多 种 方式 
增加 并 发 性 。 对 于 巨型 的 搜索 引擎 服务 商 来 将， 可 能 还 要 在 全 球 范 围 、 
不 同 地 域 分 别 部 半数 据 中 心 ， 疏 虫 也 被 分 配 到 不 同 的 数据 中 心 ， 这 样 对 
于 提高 怜 虫 系统 的 整体 性 能 是 很 有 帮助 的 。 


健壮 性 


不 虫 要 访问 各 种 类 型 的 网 站 服务 器 ， 可 能 会 遇 到 很 多 种 非 正 常情 
况 ， 比 如 网 页 HIML 纺 码 不 规范 ， 和 被 抓 取 服 务 希 突然 死机 ， 甚 至 是 爬虫 
陷阱 等 。 息 虫 对 各 种 异常 情况 能 够 正确 处 理 非常 重要 ， 否 则 可 能 会 不 定 
期 停止 工作 ， 这 是 无 法 忍受 的 。 

MAb “SFA BERGE, ABC ee Fe ET RE ea, RASER 
MERREN ERER Ra MZ BEE: FRA STE RIN, 
能 够 恢复 之 前 抓 取 的 内 容 和 数据 结构 ， 而 不 是 每 次 都 需要 把 所 有 工作 完 
全 从 头 做 起 ， 这 也 是 爬虫 健壮 性 的 一 种 体现 。 


友好 性 

不 虫 的 友好 性 包含 两 方面 的 含义 : 一 是 保护 网 站 的 部 分 私密 性 ， 另 
一 是 减少 被 抓 取 网 站 的 网 络 负载 。 

和 候 虫 抓 取 的 对 象 是 各 种 类 型 的 网 站 ， 对 于 网 站 拥有 者 来 说 ， 有 些 内 


容 并 不 和 希望 被 所 有 人 搜索 到 ， 所 以 需要 设 定 协议 ， 来 告知 爬虫 哪些 内 容 
征 不 允许 抓 取 的 。 目 前 有 两 种 主流 的 方法 可 达 此 目的 : 不 虫 茶 抓 协议 和 

















网 页 茶 抓 标记 。 


C42 847 (Robot Exclusion Protocol) 指 的 是 由 网 站 所 有 者 生 
成 一 个 指定 的 文件 robot.txt， 并 放 在 网 站 服务 器 的 根 目录 下 ， 这 个 文件 
指明 了 网 站 中 哪些 目录 下 的 网 页 是 不 允许 爬虫 抓 取 的 。 有 具有 友好 性 的 疏 
虫 在 抓 取 该 网 站 的 网 页 前 ， 首 先 要 读 取 robot.txt 文 件 ， 对 于 禁止 抓 取 的 
网 页 一 般 不 进行 下 载 。 

图 2-3 给 出 了 某 个 网 站 对 应 的 robot.txt 文 件 内 容 ，User-agent 字 段 指 出 
针对 哪个 候 虫 ， 图 中 示例 为 Google 的 爬虫 ， 而 Disallow 字 段 则 指出 不 允 
许 抓 取 的 目录 。 


















agent: coool 
allow: /tmp/ 
allow: /cgi-bin/ 


ow: /users/paranoi 





Robot. txt 
Aj2-3 ME RAR Hie 


疏 虫 禁 抓 协议 一 般 以 目录 为 单位 ， 即 整个 目录 下 的 网 页 或 内 容 都 不 
允许 被 抓 取 。 如 果 只 想 让 单个 网 页 不 被 抓 取 ， 该 如何 做 呢 ? 网 页 茜 抓 标 
W (Robot META tag) 可 在 此 种 场合 派 上 用 场 。 

图 2-4 给 出 了 网 页 禁 抓 标记 的 示例 ， 即 在 网 页 的 HTML 代 码 里 加 入 
meta name=“Trobots” 标 记 ，content 字 段 指出 允许 或 者 不 允许 爬虫 的 哪些 
行为 。 可 以 分 为 两 种 情形 ， 一 种 是 告知 息 虫 不 要 索引 该 网 页 内 容 ， 以 
noindex 作 为 标记 ， 男 外 一 种 情形 是 告知 爬虫 不 要 抓 取 网 页 所 包含 的 链 
T 通过 这 种 方式 ， 可 以 达到 对 网 页 内 容 的 一 种 
隐私 保护 








<meta name=“robots’”content = noindex > 





情形 一 : 禁止 索引 网 页 内 容 


<meta name=“robots’content =“nofollow’> 





情形 二 : 禁止 抓 取 网 页 链接 
图 2-4 网 页 禁 抓 标 记 


遵循 以 上 协议 的 肘 虫 可 以 被 认为 是 友好 的 ， 这 是 从 保护 私密 性 的 角 
上 度 考虑 的 。 另 外 一 种 友好 性 则 是 ， 和 希望 朴 虫 对 某 网 站 的 访问 造成 的 网 络 
负载 较 低 。 疏 颗 一 般 会 根据 网 页 的 链接 连续 获取 某 网 站 的 网 页 ， 如 果 疏 
虫 访问 网 站 频率 过 高 ， 会 给 网 站 服务 器 造成 很 大 的 访问 压力 ， 有 时 候 甚 
至 会 影响 网 站 的 正常 访问 ， 造 成 类 似 DOS 攻 击 的 效果 ， 所 以 为 了 减少 网 
站 的 网 络 负载 ， 友 好 性 的 爬虫 应 该 在 抓 取 策 略 部 署 时 考虑 每 个 被 抓 取 网 
e a a 
J 高 频 访问 。 


2.3 CHa EHS PP AT ER HE 


EETA STFS BIZARRE, KE NIG TE RE NF 
度 考 虑 的 。 如 果 从 搜索 引擎 用 户 体验 的 角度 考虑 ， 对 改 虫 的 工作 效果 有 
不 同 的 评价 标准 ， 其 中 最 主要 的 3 个 标准 是 : IRAR mK D 
ee eee 
验 必 主 。 








图 2-5 展 示 的 是 一 个 抽象 的 互联 网 网 页 与 搜索 引擎 爬虫 抓 取 网 页 的 
对 比 图 ， 对 于 现 有 的 搜索 引擎 来 说 ， 还 不 存在 哪个 搜索 引擎 有 能 力 将 互 
联网 上 出 现 的 所 有 网 页 部 下 载 并 建立 索引 的 ， 所 有 搜索 引擎 只 能 索引 互 
联网 的 一 部 分 ， 而 所 请 的 抓 取 网 页 窗 盖 率 指 的 是 仆 虫 抓 取 的 网 页 数量 占 
互联 网 所 有 网 页 数量 的 比例 ， 图 中 所 示 互 联网 有 5 个 网 页 ， 而 扑 虫 系统 
MUR SHINS. Bi, SATRRI A Alsi, AP 
体验 也 越 好 。 

















图 2-5 索引 网 页 和 互联 网 网 页 对 比 





对 于 扑 虫 抓 到 本 地 的 网 页 来 说 ， 很 多 网 页 可 能 已 经 发 生变 化 ， 或 者 
被 删除 ， 或 者 内 容 锐 更 改 ， 因 为 息 虫 完整 抓 取 一 轮 需 要 较 长 的 时 间 周 
期 ， 所 以 抓 取 到 的 网 页 中 必 有 一 部 分 是 过 期 的 数据 ， 即 不 能 在 网 页 变化 
后 第 一 时 间 反 映 到 网 页 库 中 ， 所 以 网 页 库 中 过 期 的 数据 越 少 ， 则 网 页 的 
时 新 性 越 好 ， 这 对 用 户 体 验 的 作用 不 言 而 噜 。 如 果 时 新 性 不 好 ， 用 户 搜 
到 的 是 过 时 数据 ， 甚 至 可 能 网 页 都 已 不 复 存 在 ， 使 用 产品 时 其 心情 如 何 
可 想 而 知 。 

互联 网 尽管 网 页 众多 ， 但 是 每 个 网 页 重要 性 差异 很 大 ， 比 如 来 自 雅 
虎 新 闻 的 网 页 和 某 个 作 浆 网 页 相 比 ， 其 重要 性 差异 判 若 云 泥 。 如 果 搜 索 
引擎 爬虫 抓 回 的 网 页 大 都 是 比较 重要 的 网 页 ， 则 可 说 其 在 抓 取 网 页 重要 
性 方面 做 得 很 好 。 这 方面 做 得 好 ， 等 价 于 搜索 引擎 的 搜索 精度 局 。 

通盘 考虑 以 上 3 个 因 系 ， 可 以 将 目前 爬虫 研发 的 目标 简单 描述 如 
下 : 在 资源 有 限 的 情况 下 ， 既 然 搜索 引擎 只 能 抓 取 互 联网 现存 网 页 的 一 
部 分 ， 那 么 就 尽 可 能 选择 比较 重要 的 那 部 分 页 面 来 索引 ;对 于 已 经 抓 取 
到 的 网 页 ， 尽 可 能 快 地 更 新 其 内 容 ， 使 得 索引 网 页 和 互联 网 对 应 页 面 内 
容 同步 更 新 ， 在 此 基础 上 ， 尽 可 能 扩大 抓 取 范围 ， 抓 取 到 更 多 以 前 无 法 
A ee 
斗 的 目标 。 























大 型 商业 搜索 引擎 为 了 满足 以 上 3 个 质量 标准 ， 大 都 开发 了 多 套 针 
对 性 很 强 的 谎 虫 系统 。 以 Google 为 例 ， 如 图 2-6 所 示 ， 甚 至少 包 含 两 套 
不 同 目的 的 朴 虫 系统 ， 一 套 被 称 为 Fresh Bot， 主 要 考虑 网 页 的 时 新 性 ， 
对 于 内 容 更 新 频繁 的 网 页 ， 目 前 可 以 达到 以 秒 计 的 更 新 周期 ， 而 另外 一 
套 被 称 之 为 Deep Crawl Bot， 主 要 针对 其 他 更 新 不 是 那么 频繁 的 网 页 抓 
取 ， 以 天 为 更 新 周期 。 除 此 之 外 ，Google 投 入 了 很 大 精力 研发 针对 上 暗 网 
的 抓 取 系统 ， 本 章 后 续 小 节 会 述 及 此 面 。 














图 2-6 Google WHICH AAR 


本 章 后 续 内 容 会 重点 介绍 以 下 4 个 方面 的 技术 : 抓 取 策略 、 网 页 更 
新 策略 、 瞳 网 抓 取 和 分 布 式 肘 虫 。 之 所 以 如 此 安排 ， 因 为 这 几 项 技术 是 
扑 虫 系统 中 至 关 重 要 的 组 成 部 分 ， 基 本 决定 了 扑 虫 系统 的 质量 和 性 能 。 

其 中 暗 网 抓 取 技术 是 为 了 增加 网 页 窗 新 率 ， 网 页 更 新 集 略 是 为 了 增 
加 下 载 网 页 的 时 效 性 ， 网 页 重要 性 评价 标准 则 是 抓 取 抹 略 的 核心 ， 而 分 
布 式 朴 虫 的 分 布 机 制 也 决定 了 怜 虫 系 统 的 性 能 。 正 是 基于 此 考虑 ， 后 续 
章节 将 陆续 介绍 这 4 个 方面 的 关键 技术 。 


2.4 抓 取 策略 
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网 页 URL 在 其 中 顺序 排列 ， 形 成 一 个 队列 结构 ， 调 度 程序 每 次 从 队列 头 
取出 某 个 URL， 发 送 给 网 页 下 载 器 下 载 页 面 内 容 ， 每 个 新 下 载 的 页 面包 
含 的 URL 会 追加 到 待 抓 取 URL 队 列 的 末尾 ， 如 此 形成 循环 ， 整 个 息 虫 系 
统 可 以 说 是 由 这 个 队列 驱动 运转 的 。 

待 抓 取 URL 队 列 中 的 页 面 URL 顺 序 是 如 何 确定 的 ? 上 面 所 述 将 新 下 
载 页 面 中 包含 的 链接 追加 到 队列 尾部 ， 这 固然 是 一 种 确定 队列 URL 顺 序 
的 方法 ， 但 并 非 唯一 的 手段 ， 事 实 上， 还 可 以 采纳 很 多 其 他 技术 ， 将 队 
列 中 待 抓 取 的 UREL 进 行 排 序 。 而 爬虫 的 不 同 抓 取 策略 ， 就 是 利用 不 同 的 
方法 来 确定 待 抓 取 URL 队 列 中 URL 优 先 顺序 的 。 

候 虫 的 抓 取 策略 有 很 多 种 ， 但 不 论 方法 如 何 ， 其 基本 目标 一 致 : 优 
先 选择 重要 网 页 进行 抓 取 。 在 疏 虫 系统 中 ， 所 谓 网 页 的 重要 性 ， 其 评判 
标准 可 以 选择 不 同方 法 ， 但 是 大 部 分 都 是 按照 网 页 的 流行 性 来 定义 的 ， 
人 
准 。 

抓 取 策略 方法 众多 ， 本 节 只 选择 已 经 被 证 明 效果 较 好 或 者 是 比较 有 
代表 性 的 解决 方案 ， 包 括 以 下 4 种 : 宽度 优先 遍历 策略 、 非 完全 
PageRank 策 略 、OCIP 策 略 及 大 站 优先 策略 。 


2.4.1 宽度 优先 过 历 策 略 (Breath First) 


宽度 优先 遍历 是 一 种 非常 简单 直观 且 历 史 也 很 悠久 的 遍历 方法 ， 在 
搜索 引擎 仆 虫 一 出 现 就 开始 采用 ， 新 提出 的 抓 取 策略 往往 会 将 这 种 方法 
作为 比较 基准 。 但 应 该 注意 到 的 是 ， 这 种 策略 也 是 一 种 相当 强悍 的 方 
法 ， 很 多 新 方法 实际 效果 不 见得 比 宽度 优先 遍历 策略 好 ， 所 以 至 今 这 种 
方法 也 是 很 多 实际 爬虫 系统 优先 采用 的 抓 取 策略 。 

那么 ， 什 么 是 宽度 优先 遍历 呢 ?” 其 实 上 文 所 说 的 “将 新 下 载 网 页 包 
含 的 链接 直接 追加 到 待 抓 取 UREL 队 列 末尾 ”， 这 就 是 宽度 优先 换 历 的 思 
想 。 也 就 是 说 ， 这 种 方法 并 没有 明确 提出 和 使 用 网 页 重要 性 衡量 标准 ， 
只 是 机 械 地 将 新 下 载 的 网 页 抽取 链接 ， 并 追加 到 待 抓 取 URL 队 列 中 ， 以 
此 安排 URL 的 下 载 顺 序 。 图 2-7 是 这 种 策略 的 示意 图 : 假设 队列 头 的 网 
页 是 1 号 网 页 ， 从 1 号 网 页 中 抽取 出 3 个 链接 指向 2 号 、3 号 和 4 号 网 页 ， 于 
是 按照 编号 顺序 依次 放 入 待 抓 取 URL 队 列 ， 图 中 网 页 的 编号 就 是 这 个 网 
页 在 待 抓 取 UREL 队 列 中 的 顺序 编号 ， 之 后 爬虫 以 此 顺序 进行 下 载 。 



























































待 抓 取 URL 队 列 


图 2-7 ”宽度 优先 遍历 策略 
实验 表明 这 种 策略 效果 很 好 ， 虽 然 看 似 机 械 ， 但 实际 上 的 网 页 抓 取 











顺序 基本 是 按照 网 页 的 重要 性 排序 的 。 之 所 以 如 此 ， 有 研究 人 员 认 为 : 
如 果 东 个 网 页 包含 很 多 入 链 ， 那 么 更 有 可 能 被 宽度 优先 过 历 策略 早早 抓 
到 ， 而 入 链 个 数 从 侧面 体现 了 网 页 的 重要 性 ， 即 实际 上 宽度 优先 过 历 策 
略 隐 含 了 一 些 网 页 优先 级 假设 。 





2.4.2 JE &PageRank ig (Partial PageRank) 


PageRank 是 一 种 著名 的 链接 分 析 算 法 ， 可 以 用 来 衡量 网 页 的 重要 性 
(技术 细 市 请 参考 本 书 “ 链 接 分 析 ” 一 革 ) 。 很 目 然 地 ， 可 以 想到 用 
PageRank 的 思想 来 对 URL 优 移 级 进行 排序 。 但 是 这 里 有 个 问题 ， 
PageRank 是 个 全 局 性 算法 ， 也 就 是 说 当 所 有 网 页 都 下 载 完 成 后 ， 其 计算 
结果 才 是 可 靠 的 ， 而 爬虫 的 目的 就 是 去 下 载 网 页 ， 在 运行 过 程 中 只 能 看 
~ 面 ， 所 以 在 抓 取 阶段 的 网 页 是 无 法 获得 可 靠 PageRank 得 分 











如 果 我 们 仍然 坚持 在 这 个 不 完整 的 互联 网 页 面子 集 内 计算 PageRank 
We? 这 了 束 是 非 完 全 PageRank 策 略 的 基本 思路 : 对 于 已 经 下 载 的 网 页 ， 加 
上 待 抓 取 URL 队 列 中 的 URL 一 起 ， 形 成 网 页 集合 ， 在 此 集合 内 进行 
PageRank 计 算 ， 计 算 完成 后 ， 将 待 抓 取 URL 队 列 里 的 网 页 按照 PageRank 
得 分 由 高 到 低 排序 ， 形 成 的 序列 驶 是 爬虫 接 下 来 应 该 依次 抓 取 的 URL 列 





表 。 这 也 是 为 何 称 之 为 “ 非 完 全 PageRank” 的 原因 。 

如 果 每 次 新 抓 取 到 一 个 网 页 ， 就 将 所 有 已 经 下 载 的 网 页 重新 计算 新 
的 非 完 全 PageRank 值 ， 明 显效 率 太 低 ， 在 现实 中 是 不 可 行 的 。 一 个 折 中 
的 办 法 是 : 每 当 新 下 载 的 网 页 攒 够 K 个 ， 然 后 将 所 有 下 载 页 面 重新 计算 
一 遍 新 的 非 完 全 PageRank。 这 样 的 计算 效率 还 勉强 能 够 接受 ， 但 是 勾引 
来 了 新 的 问题 ， 在 展开 下 一 轮 PageRank 计 算 之 前 ， 从 新 下 载 的 网 页 抽取 
出 包含 的 链接 ， 很 有 可 能 这 些 链接 的 重要 性 非常 高 ， 理 应 优先 下 载 ， 这 
种 情况 该 如 何 解决 ? 非 完全 PageRank 赋 予 这 些 新 抽取 出 来 但 是 又 没有 
PageRank 值 的 网 页 一 个 临时 PageRank 值 ， 将 这 个 网 页 的 所 有 入 链 传导 的 
PageRank 值 汇总 ， 作 为 临时 PageRank 值 ， 如 果 这 个 值 比 待 抓 取 URL 队 列 
中 己 经 计算 出 来 PageRank 值 的 网 页 高 ， 那 么 优先 下 载 这 个 URL。 

图 2-8 是 非 完全 PageRank 策 略 的 一 个 简略 示意 图 。 我 们 设 定 每 下 载 3 
个 网 页 即 进行 新 的 PageRank 计 算 ， 此 时 已 经 有 {P1，P2，P3}3 个 网 页 下 
载 到 本 地 ， 这 3 个 网 页 包含 的 链接 指 问 {P4，P5，P6}， 形 成 了 待 抓 取 
URL 队 列 ， 如 何 决定 其 下 载 顺 序 ? 将 这 6 个 网 页 形成 新 的 集合 ， 对 这 个 

合计 算 PageRank 值 ， 这 样 P4、P5 和 P6 就 获得 自己 对 应 的 PageRank 
值 ， 由 大 到 小 排序 ， 即 可 得 出 其 下 载 顺 序 。 这 里 可 以 假设 顺序 为 : P5、 
P4、P6， 当 下 载 P5 页 面 后 抽取 出 链接 ， 指 向 页 面 PB8， 此 时 赋予 P8 临 时 
PageRank 值 ， 如 果 这 个 值 大 于 P4 和 P6 的 PageRank， 则 接 下 来 优先 下 载 
P8。 如 此 不 断 循环 ， 即 形成 了 非 完全 PageRank 策 略 的 计算 思路 。 














互联 网 
图 2-8 非 完全 PageRank 策 略 


非 完全 PageRank 看 上 去 相对 复杂 ， 那 么 是 否 效果 一 定 优 于 简单 的 宽 
RETF ie ARM WE? 不 同 的 实验 结果 存在 和 争议， 有 些 表明 非 完 全 
PageRank 结 果 略 优 ， 有 些 实验 结果 结论 则 恰恰 相反 。 更 有 研究 人 员 指 
出 : 非 完 全 PageRank 计 算得 出 的 重要 性 与 完整 的 PageRank 计 算 结果 差异 
很 大 ， 不 应 作为 衡量 抓 取 过 程 中 URL 重 要 性 计算 的 依据 。 





2.4.3 OCIP I (Online Page Importance Computation ) 


OCIP 的 字面 含义 是 “在 线 页 面 重 要 性 计算 ”， 可 以 将 其 看 做 是 一 种 改 
进 的 PageRank 算 法 。 在 算法 开始 之 前 ， 每 个 互联 网 页 面 都 给 予 相同 
的 “现金 ”(cash) ， 每 当下 载 了 某 个 页 面 P 后 ，P 将 自己 拥有 的 “现金 " 平 
均 分 配给 页 面 中 包含 的 链接 页 面 ， 把 目 己 的 “现金 清空 。 而 对 于 符 抓 取 
URL 队 列 中 的 网 页 ， 则 根据 其 手头 拥有 的 现金 金额 多 少 排序 ， 优 先 下载 
现金 最 充裕 的 网 页 。OCIP 从 大 的 框 杂 上 与 PageRank 思 路 基本 一 致 ， 区 
别 在 于 : PageRank 每 次 需要 迭代 计算 ， 而 OCIP 策 略 不 需要 迭代 过 程 ， 














所 以 计算 速度 远 远 快 于 PageRank， 适 合 实时 计算 使 用 。 同 时 ，PageRank 
在 计算 时 ， 存 在 向 无 链接 关系 网 页 的 远程 跳 转 过 程 ， 而 OCIP 没 有 这 一 

计算 因子 。 实 验 结果 表明 ，OCIP 是 种 较 好 的 重要 性 衡量 策略 ， 效 果 略 

优 于 宽度 优先 遍历 策略 。 


2.4.4 大 站 优先 策略 (Larger Sites First) 


大 站 优先 策略 思路 很 直接 : 以 网 站 为 单位 来 衡量 网 页 重要 性 ， 对 于 
竺 抓 取 URL 队 列 中 的 网 页 ， 根 据 所 属 网 站 归 类 ， 如 果 哪 个 网 站 等 竺 下载 
的 页 面 最 多 ， 则 优先 下 载 这 些 链接 。 其 本 质 思想 倾向 于 优先 下 载 大 型 网 
站 ， 因 为 大 型 网 站 往往 包含 更 多 的 页 面 。 鉴 于 大 型 网 站 往往 是 著名 企业 
的 内 容 ， 其 网 页 质量 一 般 较 高 ， 所 以 这 个 思路 虽然 简单 ， 但 是 有 一 定 依 
据 。 实 验 表 明 这 个 算法 效 末 也 要 略 优 于 宽度 优先 壳 历 策略 。 


2.5 网 页 更 新 策略 


互联 网 的 动态 性 是 其 显著 特征 ， 随 时 都 有 新 出 现 的 页 面 ， 页 面 的 内 
容 被 更 改 或 者 本 来 存在 的 页 面 被 删除 。 对 于 不 虫 来 次 ， 并 非 将 网 页 抓 取 
到 本 地 就 算 完 成 任务 ， 也 要 体现 出 互联 网 的 这 种 动态 性 。 本 地 下 载 的 网 
页 可 被 看 做 是 互联 网 页 面 的 “镜像 *， 怜 虫 要 尽 可 能 保证 其 一 致 性 。 可 以 
假设 一 种 情况 : 茶 个 网 页 已 被 删除 或 者 内 容 做 出 重大 变动 ， 而 搜索 引擎 
对 此 届 然 无 知 ， 仍 然 按 其 旧 有 内 容 排 厅 ， 将 其 作为 搜索 结果 提供 给 用 
户 ， 其 用 户 体 验 之 糟 料 不 言 而 喻 。 所 以 ， 对 于 已 经 抓 取 过 的 网 页 ， 扑 忠 
还 要 负责 保持 其 内 容 和 互联 网 页 面 内 容 的 同步 ， 这 取决 于 息 虫 所 采用 的 
网 页 更 新 策略 。 

网 页 更 新 策略 的 任务 是 要 决定 何 时 重新 抓 取 之 前 已 经 下 载 过 的 网 
页 ， 以 尽 可 能 使 得 本 地 下 载 网 页 和 互联 网 原始 页 面 内 容 保 持 一 致 。 常 用 
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2.5.1 历史 参考 策略 


历史 参考 策略 是 最 直观 的 一 种 更 新 集 略 ， 它 建立 于 如 下 假设 之 上 : 
过 去 频繁 更 新 的 网 页 ， 那 么 将 来 也 会 频繁 更 新 。 所 以 ， 为 了 预 估 某 个 网 
页 何 时 进行 更 新 ， 可 以 通过 参考 其 历史 更 新 情况 来 做 出 决定 。 





这 种 方法 往往 利用 泊 松 过 程 来 对 网 页 的 变化 进行 建 模 ， 根 据 每 个 网 
页 过 去 的 变动 情况 ， 利 用 模型 预测 将 来 何 时 内 容 会 再 次 发 生变 化 ， 以 此 
来 指导 扑 虫 的 抓 取 过 程 。 但 是 不 同方 法 侧重 不 尽 相 同 ， 比 如 有 的 研究 将 
一 个 网 页 划分 成 不 同 的 区 域 ， 抓 取 集 略 应 该 忽略 挥 广告 栏 或 者 导航 栏 这 
种 不 重要 区 域 的 频繁 变化 ， 而 集中 在 主题 内 容 的 变化 探测 和 建 模 上 。 


2.5.2 用户 体验 策略 


一 般 来 说， 搜索 引擎 用 户 提交 奉 询 后 ， 相 关 的 搜索 结果 可 能 成 二 上 
万 ， 而 用 户 没 有 耐心 全 看 排 在 后 面 的 搜索 结果 ， 往 往 只 查看 前 3 页 搜索 
eI ee te eee ete ieee 

这 种 更 新 策略 以 用 户 体验 为 核心 ， 即 使 本 地 索引 的 网 页 内 容 是 过 时 
的 ， 但 是 如 果 不 影 响 用 户 体 验 ， 那 么 晚 些 更 新 这 些 过 时 网 页 也 未 尝 不 
可 。 所 以 判断 一 个 网 页 何 时 更 新 为 好 ， 取 决 于 这 个 网 页 的 内 容 变 化 所 璐 
来 搜索 质量 的 变化 (往往 采用 搜索 结果 排名 的 变化 来 衡量 ) ， 影 响 越 大 
的 网 页 ， 则 应 该 越 快 更 新 。 

用 户 体验 策略 保存 网 页 的 多 个 历史 版 本 ， 并 根据 过 去 每 次 内 容 变化 
对 搜索 质量 的 影响 ， 得 出 一 个 平均 值 ， 以 此 作为 判断 爬虫 重 抓 该 网 页 时 
机 的 参考 依据 ， 对 于 影响 越 厉害 的 网 页 ， 则 越 优 先 调度 重新 抓 取 。 


2.5.3 RRE R 


上 面 介 绍 的 两 种 网 页 更 新 策略 严重 依赖 网 页 的 历史 更 新 信息 ， 因 为 
这 是 能 够 进行 后 续 计算 的 基础 。 但 是 在 现实 中 ， 为 每 个 网 页 保存 其 历史 
言 息 ， 搜 索 系 统 会 大 量 增 加 额外 负担 。 从 另外 一 个 角度 考虑 ， 如 果 是 首 
次 抓 取 到 的 网 页 ， 因 为 没有 历史 信息 ， 所 以 也 就 无 法 按照 这 两 种 思路 去 
预 估 其 更 新 周期 。 聚 类 抽样 策略 即 是 为 了 解决 上 述 缺 点 而 提出 的 。 

聚 类 抽样 策略 认为 : 网 页 具有 一 些 属性 ， 根 据 这 些 属性 可 以 预测 其 
更 新 周期 ， 具 有 相似 属性 的 网 页 ， 其 更 新 周期 也 是 类 似 的 。 于 是 ， 可 以 
根据 这 些 属 性 将 网 页 归 类 ， 同 一 类 别 内 的 网 页 具有 相同 的 更 新 频率 。 为 
了 计算 某 个 类 别 的 更 新 周期 ， 只 需 对 类 别 内 网 页 进行 采样 ， 以 这 些 被 采 
样 网 页 的 更 新 周期 作为 类 别 内 所 有 其 他 网 页 的 更 新 周期 。 与 之 前 叙述 的 
两 种 方法 相 比 较 ， 这 种 策略 一 方面 无 须 为 每 个 网 页 保存 历史 信息 ; 另 一 
和 
进行 更 新 。 





















































聚 类 抽样 策略 基本 流程 如 图 2-9 所 示 ， 首 先 根据 网 页 所 表现 出 的 特 
征 ， 将 其 聚 类 成 不 同 的 类 别 ， 每 个 类 别 内 的 网 页 具有 相似 的 更 新 周期 。 
从 类 别 中 抽取 一 部 分 最 有 代表 性 的 网 页 〈 一 般 抽取 最 靠近 类 中 心 的 那些 
网 页 ) ， 对 这 些 网 页 计算 其 更 新 周期 ， 那 么 这 个 更 新 周期 适用 于 类 别 内 
的 所 有 网 页 ， 之 后 即 可 根据 网 页 所 属 类 别 来 决定 其 更 新 频率 。 











图 2-9 ” 聚 类 抽样 集 略 





在 Tan 等 人 的 研究 中 ， 将 能 够 体现 网 页 更 新 周期 的 属性 特征 划分 为 
两 大 类 : 静态 特征 和 动态 特征 。 静 态 特 征 包括 : 页 面 的 内 容 、 图 片 数 
量 、 页 面 大 小 、 链 接 深度 、PageRank 值 等 十 几 种 ， 而 动态 特征 则 体现 了 


静态 特征 随 着 时 间 的 变化 情况 ， 比 如 图 片 数量 的 变化 情况 、 入 链 出 链 的 
变化 情况 等 。 根 据 这 两 类 特征 ， 即 可 对 网 页 进行 聚 类 。 

图 2-9 所 示 为 一 个 较为 通用 的 流程 ， 不 同 算法 在 细节 处 有 差异 。 比 
如 有 些 研 究 和 直接 省 略 聚 类 这 个 步骤 ， 而 是 以 网 站 作为 聚 类 单位 ， 即 假设 
属于 同一 个 网 站 的 网 页 具有 相同 的 更 新 周期 ， 对 网 站 内 页 面 进行 抽样 ， 
计算 其 更 新 频率 ， 之 后 网 站 内 所 有 网 页 以 这 个 更 新 周期 为 准 。 这 个 假设 
昌 显 粗糙 ， 因 为 很 明显 同一 网 站 内 网 页 更 新 频率 差异 很 大 ， 但 是 可 以 省 
邱 索 类 这 个 步 又， 在 计算 效率 方面 会 更 可 行 些 。 

相关 实验 表明 ， 聚 类 抽样 策略 效果 好 于 前 述 两 种 更 新 策略 ， 但 是 对 
以 亿 计 的 网 页 进行 聚 类 ， 其 难度 也 是 非常 巨大 的 。 











2.6 ”有 暗 网 抓 取 (Deep Web Crawling) 








物理 学 研究 表明 ， 在 目前 宇宙 所 有 物质 的 总 体质 量 中 ， 星 系 等 可 见 
物质 只 占 其 中 的 20%， 不 可 探测 的 上 暗物质 则 占据 了 总 质量 的 大 约 80%。 
互联 网 中 的 上 暗 网 可 与 宇宙 中 的 暗物质 相 类 比 ， 而 其 所 占 网 页 的 比例 ， 更 
是 远大 于 上 暗物质 占 宇 宙 质 量 的 比例 ， 大 约 百 倍 于 目前 的 明 网 (Surfacing 
Web) 网 页 。 

所 谓 瞳 网 ， 是 指 目前 搜索 引擎 爬虫 按照 常规 方式 很 难 抓 取 到 的 互联 
网 页 面 。 如 前 所 述 ， 搜 索引 擎 爬虫 依赖 页 面 中 的 链接 关系 发 现 新 的 页 
面 ， 但 是 很 多 网 站 的 内 容 是 以 数据 库 方 式 存储 的 ， 典 型 的 例子 是 一 些 垂 
直 领 域 网 站 ， 比 如 携程 旅行 网 的 机 票数 据 ， 很 难 有 显 式 链接 指 癌 数据 库 
内 的 记录 ， 往 往 是 服务 网 站 提供 组 合 碍 询 界 面 ， 只 有 用 户 按照 需求 输入 
查询 之 后 ， 才 可 能 获得 相关 数据 。 所 以 ， 和 常规 的 仆 虫 无 法 索引 这 些 数据 
内 容 ， 这 是 暗 网 的 命名 由 来 。 图 2-10 是 携程 旅行 网 的 机 票 搜 索 界 面 和 当 
当 网 的 图 书 搜索 界面 。 
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图 2-10 ”携程 的 机 票 搜索 界面 和 当当 网 的 图 书 搜索 界面 


为 了 能 够 对 暗 网 数据 进行 索引 ， 需 要 研发 与 常规 翁 虫 机 制 不 同 的 系 
统 ， 这 类 的 虫 被 称 做 暗 网 息 虫 。 上 暗 网 让 虫 的 目的 是 将 暗 网 数据 从 数据 库 
中 挖掘 出 来 ， 并 将 其 加 入 搜索 引擎 的 索引 ， 这 样 用户 在 搜索 时 便 可 利用 
这 些 数据 ， 增 加 信息 覆盖 程度 。 

目前 大 型 搜索 引擎 服务 提供 商都 将 暗 网 挖掘 作为 重要 研究 方向 ， 因 
为 这 直接 关系 到 索引 量 的 大 小 。 在 此 领域 的 技术 差异 ， 将 直接 体现 在 搜 
索 结果 的 全 面 性 上 ， 自 然 是 竞争 对 手 之 间 的 必 争 之 地 。Google 目 前 将 其 
作为 重点 研发 方向 ， 而 百度 的 < 阿拉 丁 计划 ”目的 也 在 于 此 。 

垂直 网 站 提供 的 搜索 界面 ， 往 往 需要 人 工 选择 或 者 填写 内 容 ， 比 如 
机 票 搜索 需要 选择 出 发 地 、 到 达 地 和 日 期 ， 图 书 搜索 需要 指出 书 名 或 者 
作者 。 而 暗 网 息 虫 为 了 能 够 挖掘 数据 库 的 记录 ， 必 须 模拟 人 的 行为 ， 填 
写 内 容 并 提交 表单 。 对 于 暗 网 息 虫 来 说 ， 其 技术 挑战 有 两 点 ， 一 是 查询 
组 合 太 多 ， 如 果 一 一 组 合 遍历 ， 那 么 会 给 被 访问 网 站 造成 太 大 压力 ， 所 
以 如 何 精心 组 合 查询 选项 是 个 难点 ， 第 二 点 在 于 ， 有 的 查询 是 文本 框 ， 
比如 图 书 搜索 中 需要 输入 书 名 ， 疏 虫 怎样 才能 够 填 入 合适 的 内 容 ? 这 个 
也 版 具 挑 战 性 ，。 


2.6.1 ”查询 组 合 问题 























上 暗 网 爬虫 希望 能 够 将 某 个 垂直 网 站 数据 库 的 记录 尽 可 能 多 地 下 载 到 
索引 库 中 ， 但 这 是 有 约束 和 前 提 条 件 的 ， 即 不 能 给 被 访问 网 站 造成 过 大 
的 访问 压力 ， 同 时 尽 可 能 节省 爬虫 本 身 的 资源 。 

垂直 搜索 网 站 往往 会 给 用 户 提 供 多 个 查询 输入 框 ， 不 同 输入 框 代 表 
了 搜索 对 象 某 方面 的 属性 ， 通 过 组 合 这 些 属性 来 将 搜索 范围 缩小 。 对 于 
暗 网 息 虫 来 说 ， 一 个 简单 粗暴 的 方式 就 是 : 将 各 个 输入 框 可 能 的 输入 值 
组 合 起 来 形成 查询 ， 比 如 对 于 机 票 查 询 来 说 ， 将 所 有 出 发 城市 、 所 有 目 
的 城市 和 时 间 苑 围 的 选项 一 一 组 合 ， 形 成 大 量 的 和 查询， 提交 给 垂直 搜索 
引擎， 从 其 搜索 结果 里 提炼 数据 库 记 录 。 这 么 做 比较 野蛮 ， 而 且 也 不 是 
很 必要 ， 因 为 很 多 组 合 是 无 效 的 ， 大 量 的 返回 结果 为 空 ， 同 时 对 被 访问 
网 站 造成 了 巨大 的 流量 压力 。 

Google 对 此 提出 了 解决 方案 ， 称 之 为 定 含 信息 查询 模板 

(Informative Query Templates) 技术 ， 为 了 了 解 其 技术 原理 ， 首 先 需 要 
人 
HA o 
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图 2-11 “职位 搜索 ”垂直 网 站 


在 图 2-11 的 示例 中 ， 为 了 描述 一 个 职位 ， 完 整 的 查询 由 3 个 不 同 的 
属性 构成 : 职位 类 别 、 行 业 类 别 和 工作 地 点 。 如 果 在 向 搜索 引擎 提交 碍 
询 的 时 候 ， 部 分 属性 被 赋予 了 值 ， 而 其 他 属性 不 赋值 ， 则 这 几 个 赋值 的 
属性 一 起 构成 了 一 个 查询 模板 。 

图 2-12 是 知 干 个 “得 询 模板 ”的 示例 ， 如 宁 模 板 包含 一 个 属性 ， 则 称 
之 为 一 维 模 板 ， 图 中 模板 1 是 一 维 模板 ， 模 板 2 和 模板 3 是 两 个 二 维 模 
板 ， 模 板 4 是 三 维 模板 。 
































模板 1= (职位 类 别 ] 
Ww zhi eicom /query ?职位 类 别 = 人 力 资源 & 行业 类 别 = 不 限 & AEH A 









模板 2= 趴 位 类 别 ， 行 业 类 别 ] 
Ww -zh iw eicom /query ?职位 类 别 = 人 力 资源 & 行业 类 别 = 电子 商务 & HN AA 





模板 3= DRA, TEA) 
| Http yA w wh eicom /query? 职 位 类 别 = 人 力 资源 & TT MEAG RRE 工作 地 点 = 北京 | 


模板 4= [职位 类 别 ， 行 业 类 别 ， 工 作 地 点 ] 
w zhiw eicom /query? 职 位 类 别 = 人 力 资源 & 行业 类 别 = 电子 商务 & 工作 地 二 二 
图 2-12 ”查询 模板 示例 


对 于 一 个 固定 的 垂直 搜索 来 说 ， 其 查询 模板 组 合 起 来 有 很 多 ， 我 们 
的 任务 是 找到 富 含 信息 的 查询 模板 ， 那 么 什么 又 是 富 含 信息 查询 模板 
VE? Google 的 技术 方案 是 如 此 定义 的 : 对 于 某 个 国定 的 查询 模板 来 说 ， 
如 果 给 模板 内 每 个 属性 都 赋值 ， 形 成 不 同 的 查询 组 合 ， 提 交 给 甜 直 搜索 
引擎 ， 观 察 所 有 返回 页 面 的 内 容 ， 如 果 相 互 之 间 内 容 差异 较 大 ， 则 这 个 
查询 模板 就 是 富 含 信息 查询 模板 。 

以 图 2-12 中 的 模板 2 为 例 说 明 ， 其 包含 了 两 个 属性 : 职位 类 别 和 行 
业 类 别 。 职 位 类 别 有 3 种 不 同 赋值 ， 行 业 类 别 有 2 种 不 同 赋值 ， 两 者 组 合 
有 6 种 不 同 的 组 合 方式 ， 形 成 这 个 模板 的 6 个 查询 。 将 这 6 个 查询 分 别提 
交 给 职位 搜索 引擎 ， 观 察 返回 页 面 内 容 变 化 情况 ， 如 果 大 部 分 返回 内 容 
都 相同 或 相似 ， 则 说 明 这 个 查询 模板 不 是 富 含 信息 查询 模板 ， 否 则 可 被 
认为 是 富 含 信息 查询 模板 。 

之 所 以 做 如 此 规定 ， 是 基于 如 下 考虑 : 如 果 返 回 结果 页 面 内 容重 复 
太 多 ， 很 可 能 这 个 查询 模板 的 维度 太 高 ， 导 致 很 多 种 组 合 无 搜索 结果 ， 
抑或 构造 的 查询 本 身 就 是 错误 的 ， 搜 索 系 统 返回 了 错误 页 面 。 

假设 按照 上 面 方式 对 所 有 查询 模板 一 一 试探 判断 其 是 否 富 含 信息 
查询 模板 ， 则 因为 查询 模板 数量 太 多 ， 系 统 效 率 还 是 会 很 低 。 为 了 进 一 
步 减少 提交 的 查询 数目 ，Google 的 技术 方案 使 用 了 ISIT 算 法 。 

ISIT 算 法 的 基本 思路 是 :首先 从 一 维 模板 开始 ， 对 一 维 查 询 模板 未 
个 考察 ， 看 其 是 否 富 含 信息 查询 模板 ， 如 果 是 的 话 ， 则 将 这 个 一 维 模板 














































































































扩展 到 二 维 ， 再 次 依次 考察 对 应 的 二 维 模板 ， 如 此 类 推 ， 逐 步 增加 维 
数 ， 直 到 再 也 无 法 找到 定 含 信息 查询 模板 为 止 。 通 过 这 种 方式 ， 束 可 以 
找到 绝 大 多 数 富 含 信息 查询 模板 ， 同 时 也 尽 可 能 减少 了 提交 的 查询 总 
数 ， 有 效 达到 了 目的 。Google 的 评测 结果 证 明 ， 这 种 方法 和 完全 组 合 方 
式 比 ， 能 够 大 幅度 提升 系统 效率 。 

如 末 该 者 对 于 数据 挖掘 有 所 了 解 ， 可 以 看 出 ，Google 提 出 的 算法 和 
数据 挖掘 里 经 典 的 Apriori 规 则 挖掘 算法 有 异曲同工 之 处 。 


2.6.2 ”文本 框 填写 问题 


对 于 输入 中 的 文本 框 ， 需 要 爬虫 自动 生成 查询 ， 图 2-13 给 了 一 个 党 
用 做 法 的 流程 图 。 
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图 2-13 ”文本 框 自动 填写 


在 爬虫 运转 起 来 之 前 ， 因 为 对 目标 网 站 一 无 所 知 ， 所 以 必须 人 工 提 
供 一 些 提 示 。 在 此 例 中 ， 通 过 人 工 观察 网 站 进行 定位 ， 提 供 一 个 与 网 站 
内 容 相关 的 初始 种 子 查 询 关 键 词 表 ， 对 于 不 同 的 网 站 ， 需 要 人 工 提 供 不 
同 的 词 表 ， 以 此 作为 朴 虫 能 够 继续 工作 的 基础 条 件 。 改 虫 根据 初始 种 子 
词 表 ， 疝 垂直 搜索 引擎 提交 查询 ， 并 下 载运 回 的 结果 页 面 。 之 后 从 返回 
结果 页 面 里 自动 挖掘 出 相关 的 关键 词 ， 并 形成 一 个 新 的 查询 列表 ， 依 次 
将 新 挖掘 出 的 查询 提交 给 搜索 引擎 。 如 此 往复 ， 直 到 无 法 下 载 到 新 的 内 
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2.7 JANER 


对 于 商业 搜索 引擎 来 说 ， 分 布 式 息 虫 架构 是 必须 采用 的 技术 。 面 对 
海量 街 抓 取 网 页 ， 只 有 采取 分 布 式 架构 ， 才 有 可 能 在 较 短 时 间 内 完成 一 
轮 抓 取 工 作 。 

分 布 式 爬 虫 可 以 分 为 在 干 个 分 布 式 层级 ， 不 同 的 应 用 可 能 由 其 中 部 
分 层级 构成 ， 图 2-14 是 一 个 大 型 分 布 式 朴 虫 的 3 个 层级 : 分 布 式 数据 中 
心 、 分 布 式 抓 取 服务 器 及 分 布 式 爬 虫 程序 。 整 个 朴 虫 系统 由 全 球 多 个 分 
布 式 数据 中 心 共同 构成 ， 每 个 数据 中 心 负 贡 抓 取 本 地 域 周 边 的 互联 网 网 
页 ， 比 如 欧洲 的 数据 中 心 负责 抓 取 英国 、 法 国 、 德 国 等 欧洲 国家 的 网 
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数据 中 心 


图 2-14 ”分布 式 候 虫 的 几 个 层级 
每 个 数据 中 心 又 由 多 台 高 速 网 络 连接 的 抓 取 服 务 器 构成 ， 而 每 台 服 
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保证 抓 取 数 据 的 及 时 性 和 全 面 性 。 

对 于 同一 数据 中 心 的 多 台 抓 取 服务 器 ， 不 同 机 器 之 间 的 分 工 协同 方 
式 会 有 差异 ， 常 见 的 分 布 式 架构 有 丙种， 主 从 式 分 布 季 虹 和 对 等 式 分 布 
EH, 


2.7.1 EMARE (Master-Slave) 


FEM MEH, AARRE a AREAS Tl A ap (SR 
2-15) ， 其 中 有 一 台 专 门 负责 对 其 他 服务 器 提供 URL 分 发 服务 ， 其 他 机 
器 则 进行 实际 的 网 页 下 载 。URL 服 务 器 维护 符 抓 取 URL 队 列 ， 并 从 中 获 
得 竺 抓 取 网 页 的 URL， 分 配给 不 同 的 抓 取 服务 器 ， 另 外 还 要 对 抓 取 服 务 
器 之 间 的 工作 进行 负载 均衡 ， 使 得 各 个 服务 器 承担 的 工作 量 大 致 相等 ， 
不 至 于 出 现 忙 的 过 忙 、 闲 的 过 内 的 情形 。 抓 取 服 务 占 之 间 没 有 通信 联 
系 ， 每 个 抓 取 服 务 器 只 和 URL 服 务 嚣 进行 消息 传递 。 
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Google 在 早期 即 采用 此 种 主 从 分 布 式 爬虫 ， 在 这 种 架构 中 ， 因 为 
URL 服 务 器 承担 很 多 管理 任务 ， 同 时 待 抓 取 URL 队 列 数 量 巨 大 ， 所 以 
URL 服 务 器 容易 成 为 整个 系统 的 瓶颈 。 


2.7.2 XÆ MER (Peer to Peer) 





TEXT Say AME RAP, ARS AS ZANE Le, HERZ 
器 承担 相同 的 功能 ， 各 自负 担 一 部 分 URL 的 抓 取 工作 ， 如 图 2-16 所 示 即 
是 其 中 一 种 对 等 式 分布 息 虫 ，Mercator 把 虫 采 用 此 种 体系 结构 (关于 
Mercator 疏 虫 具体 技术 细节 可 以 参考 文献 7) 。 





图 2-16 ”对 等 分 布 式 爬 虫 〈《 哈 希 取 模 ) 


由 于 没有 UREL 服 务 器 存在 ， 每 人 台 抓 取 服 务 器 的 任务 分 工 就 成 为 问 
题 。 在 如 图 2-16 所 示 体 系 结构 下 ， 由 服务 器 上 自己 来 判断 某 个 URE 是 否 应 
该 由 自己 来 抓 取 ， 或 者 将 这 个 URL 传 递 给 相应 的 服务 器 。 人 至 于 采取 的 判 
断 方 法 ， 则 是 对 网 址 的 主 域名 进行 哈 希 计算 ， 之 后 取 模 〈( 即 hash LER 
名 ] %m， 这 里 的 mm 对 应 服务 器 个 数 ) ， 如 果 计 算 所 得 的 值 和 抓 取 服 务 
oo 则 自己 下 载 该 网 页 ， 否 则 将 该 网 址 转发 给 对 应 编号 的 抓 取 
ARS FR o 

以 图 2-16 的 例子 来 说 ， 因 为 有 3 台 抓 取 服 务 器 ， 所 以 取 模 的 时 候 m 设 
定 为 3。 图 中 的 1 号 抓 取 服务 器 负责 抓 取 哈 希 取 模 后 值 为 1 的 网 页 ， 当 其 
接收 到 网 址 www.google.com 时 ， 首 先 利用 哈 希 函数 计算 这 个 主 域名 的 哈 
希 值 ， 之 后 对 3 取 模 ， 发 现 取 模 后 值 为 1!， 属 于 自己 的 职责 范围 ， 于 是 就 
自己 下 载 网 页 ， 如 果 接 收 到 网 址 www.baidu.com， 哈 希 后 对 3 取 模 ， 发 现 
其 值 等 于 2， 不 属于 自己 的 职责 范畴 ， 则 会 将 这 个 要 下 载 的 URL 转 发 给 2 
号 抓 取 服 务 器 ， 由 2 号 抓 取 服 务 器 来 进行 下 载 。 通 过 这 种 方式 ， 每 台 服 
务 器 平均 承担 大 约 1/3 的 抓 取 工作 量 。 
































由 于 没有 URL 分 发 服务 器 ， 所 以 此 种 方法 不 存在 系统 瓶颈 问题 ， 男 
外 其 哈 希 函数 不 是 针对 整个 URL， 而 只 针对 主 域名 ， 所 以 可 以 保证 同一 
网 站 的 网 页 都 由 同一 台 服 务 器 抓 取 ， 这 样 一 方面 可 以 提高 下 载 效 率 
CDNS 域 名 解析 可 以 缓存 ) ， 另 外 一 方面 也 可 以 主动 控制 对 某 个 网 站 的 
访问 速度 ， 避 免 对 某 个 网 站 访问 压力 过 大 。 

图 2-16 这 种 体系 结构 也 存在 一 些 缺 点 ， 假 设 在 抓 取 过 程 中 某 台 服务 
器 宕 机 ， 或 者 此 时 新 加 入 一 台 抓 取 服 务 妖 ， 因 为 取 模 时 mm 是 以 服务 器 个 
数 确 定 的 ， 所 以 此 时 m 值 发 生变 化 ， 导 致 大 部 分 URL 哈 希 取 模 后 的 值 跟 
着 变化 ， 这 意味 着 几乎 所 有 任务 都 需要 重新 进行 分 配 ， 无 疑 会 导致 资源 
LARA 5% -o 
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提出 了 改进 方案 ， 即 放弃 哈 希 取 模 方式 ， 转 而 采用 一 致 性 哈 希 方法 
(Consisting Hash) 来 确定 服务 器 的 任务 分 工 〈 参 考 图 2-17) 。 

















Hash www .sina.com.cn 
图 2-17 MSGS FAME He (一致 性 哈 希 ) 


一 致 性 哈 希 将 网 站 的 主 域名 进行 哈 希 ， 了 上 映 射 为 一 个 范围 在 0 到 2 关 之 
间 的 茶 个 数值 ， 大 量 的 网 站 主 域名 会 被 均匀 地 哈 希 到 这 个 数值 区 间 。 可 
以 如 图 2-17 所 示 那 样 ， 将 哈 希 值 范 围 首尾 相 接 ， 即 认为 数值 0 和 最 大 值 
重合 ， 这 样 可 以 将 其 看 做 有 序 的 环 状 序列 ， 从 数值 0 开始 ， 沿 着 环 的 顺 
时 针 方 向 ， 哈 希 值 逐 渐 增 大 ， 直 到 环 的 结尾 。 而 茶 个 抓 取 服务 器 则 负责 

















这 个 环 状 序列 的 一 个 片段 ， 即 落 在 某 个 哈 希 取 值 范围 内 的 URL 都 由 该 服 
务 髓 负责 下 载 。 这 样 即 可 确定 每 台 服 务 器 的 职 贡 范围 。 

我 们 以 图 2-17 为 例 说 明 其 优势 ， 假 设 2 号 抓 取 服 务 占 接收 到 了 域名 
www.baidu.com， 经 过 哈 希 值 计算 后 ，2 号 服务 占 知 道 在 自己 的 管辖 范围 
内 ， 于 是 自己 下 载 这 个 URL。 在 此 之 后 ，2 号 服务 器 收 到 了 
www.sina.com.cn 这 个 域名 ， 经 过 哈 希 计算 可知 是 3 号 服务 器 负责 的 范 
围 ， 于 是 将 这 个 URL 转 及 给 3 号 服务 嚣 。 如 果 3 号 服务 器 死机 ， 那 么 2 号 
服务 器 得 不 到 回应 ， 于 是 知道 3 号 服务 器 出 了 状况 ， 此 时 顺 时 针 按照 环 
的 大 小 顺序 和 查找， 将 UREL 转 发 给 第 一 个 硬 到 的 服务 器 ， 即 1 号 服务 器 ， 
a 由 1 号 服务 器 接管 ， 直 到 3 号 服务 器 重新 局 
动 为 止 。 

从 上 面 的 流程 可 知 ， 即 使 某 台 服务 器 出 了 问题 ， 那 么 本 来 应 该 由 这 
台 服 务 右 负责 的 URL 则 由 顺 时 针 的 下 一 个 服务 器 接管 ， 并 不 会 对 其 他 服 
务 器 的 任务 造成 影响 ， 这 样 就 解决 了 哈 希 取 模 方式 的 浆 端 ， 将 影响 郊 围 
从 全 局 限制 到 了 局 部 ， 如 果 新 加 入 一 台 下 载 服务 器 也 是 如 此 。 


本 章 提 要 
从 爬虫 设计 角度 讲 ， 优 秀 的 爬虫 应 该 具备 高 性 能 ， 好 的 可 扩展 
性 、 健 壮 性 和 友好 性 。 
- 从 用 户 体验 角度 考虑 ， 对 爬虫 的 工作 效果 评价 标准 包括 : 抓 取 
网 页 履 盖 率 、 抓 取 网 页 时 新 性 和 抓 取 网 页 重要 性 。 


抓 取 策 略 、 网 页 更 新 策略 、 暗 网 抓 取 和 分 布 式 策略 是 爬虫 系统 
至 关 重 要 的 4 个 方面 内 容 ， 基 本 决定 了 疏 虫 系统 的 质量 和 性 能 。 
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索引 其 实在 日 第 生活 中 是 很 常见 的 ， 比 如 书籍 的 目录 就 是 一 种 索引 
结构 ， 目 的 是 为 了 让 人 们 能 够 更 快 地 找到 相关 章节 内 容 。 再 比如 像 
hao123 这 种 类 型 的 导航 网 站 本 质 上 也 是 互联 网 页 面 中 的 索引 结构 ， 目 的 
类 似 ， 也 是 为 了 让 用 户 能 够 尽快 找到 有 价值 的 分 类 网 站 。 

在 计算 机 科学 领域 ,索引 也 是 非常 泗 用 的 数据 结构 。 其 根本 目的 是 
为 了 在 具体 应 用 中 加 快 查找 速度 。 比 如 在 数据 库 中 ， 在 很 多 高 效 数据 结 
构 中 ， 都 会 大 量 采 用 索引 来 提升 系统 效率 。 

具体 到 搜索 引擎 ， 索 引 更 是 其 中 最 重要 的 核心 技术 之 一 ， 面 对 海量 
的 网 页 内 容 ， 如 何 快速 找到 包含 用户 碍 询 词 的 所 有 网 页 ?” BARIER 
中 扮演 了 关键 的 角色 。 本 章 主 要 讲解 与 倒 排 索引 相关 的 技术 。 


3.1 索引 基础 


本 节 通 过 引入 简单 实例 ， 介 绍 与 搜索 引擎 索引 有 关 的 一 些 基 本 概 
念 ， 了 解 这 些 基 本 概念 对 于 后 续 深 入 了 解 索 引 的 工作 机 制 非常 重要 。 


3.1.1 单词 一 文档 矩阵 


单词 一 文档 矩阵 是 表达 两 者 之 间 所 具有 的 一 种 包含 关系 的 概念 模 
型 ， 图 3-1 展 示 了 其 含义 。 图 3-1 的 每 列 代表 一 个 文档 ， 每 行 代表 一 个 单 




















词 ， 打 对 钩 的 位 置 代表 包 含 关系 。 








图 3-1 单词 一 文档 矩阵 


从 纵 问 即 文档 这 个 维度 来 看 ， 每 列 代表 文档 包含 了 哪些 单词 ， 比 如 
文档 1 包含 了 词汇 1 和 词汇 4， 而 不 包含 其 他 单词 。 从 横 问 即 单词 这 个 维 
度 来 看 ， 每 行 代表 了 哪些 文档 包含 了 茶 个 单词 。 比 如 对 于 词汇 1 来 说 ， 
文档 1 和 文档 4 中 出 现 过 词汇 1， 而 其 他 文档 不 包含 词汇 1。 和 矩阵 中 其 他 的 
行列 也 可 做 此 种 解读 。 

搜索 引擎 的 索引 其 实 束 是 实现 单词 一 文档 窍 阵 的 具体 数据 结构 。 可 
以 有 不 同 的 方式 来 实现 上 述 概念 模型 ， 比 如 倒 排 索引 、 签 名 文件 、 后 绥 
树 等 方式 。 但 是 各 项 实验 数据 表明 ， 倒 排 索引 是 单词 到 文档 映射 关系 的 
最 佳 实现 方式 ， 所 以 本 章 主要 介绍 倒 排 索引 的 技术 细节 。 


3.1.2 ” 倒 排 索 引 基 本 概念 


在 本 小 节 ， 我 们 会 解释 倒 排 索引 常用 到 的 一 些 专用 术语 ， 为 了 表达 
的 便捷 性 ， 在 本 书后 续 章 节 会 直接 使 用 这 些 术 语 。 

文档 (Document) : 一 般 搜索 引擎 的 处 理 对 象 是 互联 网 网 页 ， 
而 文档 这 个 概念 要 更 宽泛 些 ， 代 表 以 文本 形式 存在 的 存储 对 象 。 相 比 网 
页 来 说 ， 涵 盖 更 多 形式 ， 比 如 Word、PDF、html、XML 等 不 同 格式 的 文 
件 都 可 以 称 为 文档 ， 再 比如 一 封 邮件 、 一 条 短信 、 一 条 微 博 也 可 以 称 为 
文档 。 在 本 书后 续 内 容 中 ， 很 多 情况 下 会 使 用 文档 来 表征 文本 信息 。 

- 文档 集合 (Document Collection) : ”由 若干 文档 构成 的 集合 称 
为 文档 集合 。 比 如 海量 的 互联 网 网 页 或 者 说 大 量 的 电子 邮件 ， 都 是 文档 
集合 的 具体 例子 。 
































- SRS (Document ID) : 在 搜索 引擎 内 部 ， 会 为 文档 集合 
内 每 个 文档 赋予 一 个 唯一 的 内 部 编号， 以 此 编号 来 作为 这 个 文档 的 唯一 
标识 ， 这 样 方 便 内 部 处 理 。 每 个 文档 的 内 部 编写 即 称 为 文档 编写， 后 文 
有 时 会 用 DocID 来 便捷 地 代表 文档 编号 。 

单词 编写 《Word ID ) : 与 文档 编号 类 似 ， 搜 索引 擎 内 部 以 唯 
-的 编号 来 表征 某 个 单词 ， 单 词 编号 可 以 作为 某 个 单词 的 唯一 表征 。 

倒 排 索引 (Inverted Index) : 倒 排 索引 是 实现 单词 一 文档 窍 阵 
的 一 种 具体 存储 形式 。 通 过 倒 排 索引 ， 可 以 根据 单词 快速 获取 包含 这 个 
人 




















单词 词典 (Lexicon) : 搜索 引擎 通 第 的 索引 单位 是 单词 ， 单 词 
词典 是 由 文档 集合 中 出 现 过 的 所 有 单词 构成 的 字符 串 集 合 ， 单 词 词典 内 
每 条 索引 项 记载 单词 本 身 的 一 些 信息 及 指 同 倒 排列 表 的 指针 。 

倒 排 列表 (PostingList〉: 倒 排 列表 记载 了 出 现 过 某 个 单词 的 
所 有 文档 的 文档 列表 及 单词 在 该 文档 中 出 现 的 位 置信 息 ， 每 条 记录 称 为 
一 个 倒 排 项 〈Posting) 。 根 据 倒 排 列表 ， 即 可 获知 哪些 文档 包含 菜 个 单 
Ple 











-AIHE Cnverted File) : 所 有 单词 的 倒 排 列表 往往 顺序 地 
存储 在 磁盘 的 茶 个 文件 里 ， 这 个 文件 即 被 称 为 倒 排 文件 ， 倒 排 文件 是 存 
储 倒 排 索引 的 物理 文件 。 

关于 这 些 概念 之 间 的 关系 ， 通 过 图 3-2 可 以 比较 清晰 地 看 出 来 。 














图 3-2 ” 倒 排 索引 基本 概念 示意 图 


3.1.3 ” 倒 排 索引 简单 实例 


倒 排 索引 从 逻辑 结构 和 基本 思路 上 讲 非常 简单 。 下 面 我 们 通过 有 具体 
实例 来 进行 说 明 ， 使 读者 能 够 对 倒 排 索 引 有 一 个 宏观 而 直接 的 感受 。 

假设 文档 集合 包含 5 个 文档 ， 每 个 文档 内 容 如 图 3-3 所 示 ， 在 图 中 最 
左 端 一 栏 是 每 个 文档 对 应 的 文档 编号 ， 我 们 的 任务 就 是 对 这 个 文档 集合 
建立 倒 排 索引 。 
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图 3-3 ”文档 集合 


中 文 和 英文 等 语言 不 同 ， 单 词 之 间 没 有 明确 的 分 卫 符 写 ， 所 以 首先 
要 用 分 词 系 统 将 文档 目 动 切 分 成 单词 序列 ， 这 样 每 个 文档 就 转换 为 由 单 
词 序 列 构成 的 数据 流 。 为 了 系统 后 续 处 理 方便 ， 需 要 对 每 个 不 同 的 单词 
赋予 唯一 的 单词 编号 ， 同 时 记录 下 哪些 文档 包含 这 个 单词 ， 在 如 此 处 理 
结束 后 ， 我 们 可 以 得 到 最 简单 的 倒 排 索引 (参考 图 3-4) 。 在 图 3-4 
中 ,，“ 单 词 ID” 一 列 记录 了 每 个 单词 的 单词 编号 ， 第 2 列 是 对 应 的 单词 ， 
第 3 列 即 每 个 单词 对 应 的 倒 排 列表 。 比 如 单词 “谷歌 "， 其 单词 编号 为 1， 
倒 排 列表 为 {1,2,3,4,5}， 说 明文 档 集 合 中 每 个 文档 都 包含 了 这 个 单词 。 
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图 3-4 最 简单 的 倒 排 索引 


之 所 以 说 图 3-4 所 示 的 倒 排 索引 是 最 简单 的 ， 是 因为 这 个 索引 系统 
只 记载 了 哪些 文档 包含 某 个 单词 ， 而 事实 上 ， 索 引 系统 还 可 以 记录 除 此 
之 外 的 更 多 信息 。 图 3-5 是 一 个 相对 复杂 些 的 倒 排 索引 ， 与 图 3-4 所 示 的 
基本 索引 系统 相 比 ， 在 单词 对 应 的 倒 排列 表 中 不 仅 记 录 了 文档 编号 ， 还 
记载 了 单词 频率 信息 CTR) ， 即 这 个 单词 在 某 个 文档 中 出 现 的 次 数 ， 之 
所 以 要 记录 这 个 信息 ， 是 因为 词 频 信息 在 搜索 结果 排序 时 ， 计 算 查 询 和 
文档 相似 度 是 一 个 很 重要 的 计算 因子 ， 所 以 将 其 记录 在 倒 排 列表 中 ， 以 
方便 后 续 排 序 时 进行 分 值 计算 。 在 图 3-5 所 示 的 例子 里 ， 单 词 “ 创 始 
人 ”的 单词 编写 为 7， 对 应 的 倒 排 列表 内 容 有 (3; 1) ， 其 中 3 代表 文档 
编写 为 3 的 文档 包含 这 个 单词 ， 数 字 1 代 表 词 频 信息 ， 即 这 个 单词 在 3 号 
ae 出 现 过 1 次 ， 其 他 单词 对 应 的 倒 排 列表 所 代表 的 含义 与 此 相 
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图 3-5” 带 有 单词 频率 信息 的 倒 排 索引 





实用 的 倒 排 索引 还 可 以 记载 更 多 的 信息 ， 如 图 3-6 所 示 的 索引 系统 
除了 记录 文档 编号 和 单词 频率 信息 外 ， 额 外 记载 了 两 类 信息 ， 即 每 个 单 
a aia (对 应 图 3-6 的 第 3 列 ) 及 单词 在 某 个 文档 出 现 位 
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图 3-6” 带 有 单词 频率 、 文 档 频 率 和 出 现 位 置信 息 的 倒 排 索引 


文档 频率 信息 代表 了 在 文档 集合 中 有 多 少 个 文档 包含 菜 个 单词 ， 之 
所 以 要 记录 这 个 信息 息 ， 其 原因 与 单词 频率 信息 一 样 ， 这 个 信息 在 搜索 结 
果 排 序 计 算 中 是 一 个 非常 重要 的 因子 。 而 单词 在 某 个 文档 中 出 现 位 置 的 
信息 并 非 索引 系统 一 定 要 记录 的 ， 在 实际 的 索引 系统 里 可 以 包含 ， 也 可 
以 选择 不 包含 这 个 信息 ， 之 所 以 如 此 是 因为 这 个 信息 对 于 搜索 系统 来 说 
并 非 必 需 ， 位 置信 息 只 有 在 文 持 短语 查询 的 时 候 才 能 够 派 上 用 场 。 


以 单词 “ 拉 斯 ?为 例 ， 其 单词 编号 为 8， 文 档 频率 为 2， 代 表 整 个 文档 
集合 中 有 两 个 文档 包含 这 个 单词 ， 对 应 的 倒 排 列表 为 {(3;1;<4>),(5;1; 
<4>)}， 其 含义 为 在 文档 3 和 文档 5 出 现 过 这 个 单词 ， 单 词 频率 都 为 1， 单 
ial 和 企 两 个 文档 中 的 出 现 位 置 都 是 4， 即 文档 中 第 4 个 单词 是 “ 拉 
斯 ”。 

如 图 3-6 所 示 的 倒 排 索引 已经 是 一 个 非常 完备 的 索引 系统 ， 实 际 搜 
索 系 统 的 索引 结构 基本 如 此 ， 区 别 无 非 是 采取 哪些 具体 的 数据 结构 来 实 
MERE HEE o 

有 了 这 个 索引 系统 ， 搜 索引 擎 可 以 很 方便 地 啊 应 用 户 的 查询 ， 比 如 




















用 户 输 入 查询 词 “Facebook”， 搜 索 系 统 查 找 倒 排 索引 ， 从 中 可 以 读 出 包 
含 这 个 单词 的 文档 ， 这 些 文档 就 是 提供 给 用 户 的 搜索 结果 ， 而 利用 单词 
频率 信息 、 文 档 频 率 信息 即 可 对 这 些 候选 搜索 结果 进行 排序 ， 计 算 文档 
和 查询 的 相似 性 ， 按 照相 似 性 得 分 由 高 到 低 排 序 输 出 ， 此 即 为 搜索 系统 
的 部 分 内 部 流程 ， 具 体 实 现 方案 本 书 第 5 章 会 做 详细 描述 。 


3.2 单词 词典 


单词 词典 是 倒 排 索引 中 非常 重要 的 组 成 部 分 ， 它 用 来 维护 文档 集合 
中 出 现 过 的 所 有 单词 的 相关 信息 ， 同 时 用 来 记载 某 个 单词 对 应 的 倒 排列 
表 在 倒 排 文件 中 的 位 置信 息 。 在 文 持 搜索 时 ， 根 据 用 户 的 查询 词 ， 去 单 
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对 于 一 个 规模 很 大 的 文档 集合 来 说 ， 可 能 包含 几 十 万 甚至 上 百 万 的 
不 同 单词 ， 能 人 否 快 速 定 位 茶 个 单词 ， 这 直接 影 啊 搜 索 时 的 啊 应 速度 ， 所 
以 需要 高 效 的 数据 结构 来 对 单词 词典 进行 构建 和 得 找 ， 币 用 的 数据 结构 
包括 哈 希 加 链表 结构 和 树 形 词典 结构 。 


3.2.1 ” 哈 希 加 链表 


图 3-7 是 这 种 词典 结构 的 示意 图 。 这 种 词典 结构 主要 由 两 个 部 分 构 
成 ， 主 体 部 分 是 哈 希 表 ， 每 个 哈 希 表 项 保存 一 个 指针 ， 指 针 指向 冲突 链 
表 ， 在 冲突 链表 里 ， 相 同 哈 希 值 的 单词 形成 链表 结构 。 之 所 以 会 有 冲突 
链表 ， 是 因为 两 个 不 同 单词 获得 相同 的 哈 硕 值 ， 如 果 是 这 样 ， 在 哈 希 方 
和 
EARR. 





















































图 3-7 ” 哈 希 加 链表 词典 结构 
在 建立 索引 的 过 程 中 ， 词 典 结构 也 会 相应 地 被 构建 出 来 。 比 如 在 解 











析 一 个 新 文档 的 时 候 ， 对 于 某 个 在 文档 中 出 现 的 单词 T， 首 先 利 用 哈 希 
函数 获得 其 哈 希 值 ， 之 后 根据 哈 希 值 对 应 的 哈 硕 表 项 读 取 其 中 保存 的 指 
针 ， 就 找到 了 对 应 的 冲突 链表 。 如 果 冲 突 链 表 里 已 经 存在 这 个 单词 ， 说 
明 蛙 词 在 之 前 解析 的 文档 里 已 经 出 现 过 。 如 果 在 冲突 链表 里 没有 发 现 这 
个 单词 ， 说 明 该 早 词 是 首次 碰 到 ， 则 将 其 加 入 冲突 链表 里 。 通 过 这 种 方 
eee ee ee 

















在 啊 应 用 户 碍 询 请 求 时 ， 其 过 程 与 建立 词典 类 似 ， 不 同 点 在 于 即使 
词典 里 没 出 现 过 茶 个 单词 ， 也 不 会 添加 到 词典 内 。 以 图 3-7 为 例 ， 假 设 
用 户 输 入 的 碍 询 请 求 为 单词 ?3， 对 这 个 单词 进行 哈 希 ， 定 位 到 哈 希 表 失 
的 2 写 权 ， 从 其 保留 的 指针 可 以 获得 冲突 链表 ， 依 次 将 里 词 3 和 冲突 链表 
内 的 单词 比较 ， 发 现 单 词 3 在 冲突 链表 内 ， 于 是 找到 这 个 单词 ， 之 后 可 
以 读 出 这 个 单词 对 应 的 倒 排 列表 来 进行 后 续 的 工作 ， 如 果 没 有 找到 这 个 
单词 ， 说 明文 档 集合 内 没有 任何 文档 包含 单词 ， 则 搜索 结果 为 空 。 


3.2.2” 树 形 结构 








B 树 (或 者 B 十 树 〉 是 男 外 一 种 高 效 但 找 结构 ， 图 3-8 是 一 个 B 树 结 
构 示 意图 。B 树 与 哈 硕 方式 查找 不 同 ， 需 要 字典 项 能 够 按照 大 小 排序 
(数字 或 者 字符 序 ) ， 而 哈 希 方式 则 无 须 数据 满足 此 项 要 求 。 
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图 3-8”B 树 查找 结构 


B 树 形成 了 层级 查找 结构 ， 中 间 节 点 用 于 指出 一 定 顺序 范围 的 词典 
项 目 存储 在 哪个 子 树 中 ， 起 到 根据 词典 项 比较 大 小 进行 导航 的 作用 ， 最 
底层 的 叶子 节点 存储 单 词 的 地 址 信息 ， 根 据 这 个 地 址 就 可 以 提取 出 音 
字符 串 。 


3.3” 倒 排列 表 (Posting List) 


在 本 章 第 一 小 节 介 绍 的 简单 索引 例子 中 ， 大 致 可 以 看 到 倒 排列 表 起 
到 的 作用 ， 倒 排列 表 用 来 记录 有 哪些 文档 包含 了 某 个 单词 。 一 般 在 文档 
集合 里 会 有 很 多 文档 包含 茶 个 单词 ， 每 个 文档 会 记录 文档 编号 
(DocID) ， 单 词 在 这 个 文档 中 出 现 的 次 数 〈TF) 及 单词 在 文档 中 哪些 
位 置 出 现 过 等 信息 ， 这 样 与 一 个 文档 相关 的 信息 被 称 做 倒 排 索引 项 
(Posting) ， 包 含 这 个 单词 的 一 系列 倒 排 索引 项 形成 了 列表 结构 ， 这 就 
是 某 个 单词 对 应 的 倒 排 列表 。 图 3-9 是 倒 排 列表 的 示意 图 ， 在 文档 集合 
中 出 现 过 的 所 有 单词 及 其 对 应 的 倒 排列 表 组 成 了 倒 排 索引 。 


























13-9 倒 排列 表示 意图 


在 实际 的 搜索 引擎 系统 中 ， 并 不 存储 倒 排 索引 项 中 的 实际 文档 编 
号 ， 而 是 代 之 以 文档 编号 差 值 (D-Gap) 。 文 档 编 号 差 值 是 倒 排列 表 中 
相 邻 的 两 个 倒 排 索引 项 文档 编号 的 差 值 ， 一 般 在 索引 构建 过 程 中 ， 可 以 
保证 倒 排列 表 中 后 面 出 现 的 文档 编号 大 于 之 前 出 现 的 文档 编号 ， 所 以 文 
档 编 号 差 值 总 是 大 于 0 的 整数 。 如 图 3-10 所 示 的 例子 中 ， 原 始 的 3 个 文档 
编写 分 别 是 187、196 和 199， 通 过 编写 差 值 计算 ， 在 实际 存储 的 时 候 就 
转化 成 了 : 187、9、3。 














图 3-10 ”文档 编号 差 值 示 例 


之 所 以 要 对 文档 编号 进行 兰 值 计算 ， 主 要 原因 是 为 了 更 好 地 对 数据 
进行 压缩 ， 原 始 文档 编号 一 般 都 是 大 数值 ， 通 过 差 值 计算 ， 就 有 效 地 将 
大 数值 转换 为 了 小 数值 ， 而 这 有 助 于 增加 数据 的 压缩 率 。 至 于 为 何 这 
样 ， 本 书 第 4 章 在 专门 讲述 索引 压缩 时 会 叙述 其 原因 。 


3.4 建立 索引 


正如 前 面 章 节 所 述 ， 索 引 结构 如 果 建 立 好 了 ， 可 以 提高 搜索 的 速 
度 ， 那 么 给 定 一 个 文档 集合 ， 索 引 是 如 何 建立 起 来 的 呢 ? 建立 索引 的 方 
式 有 很 多 种 ， 本 节 叙 述 比 较 实 用 的 3 种 建立 索引 的 方法 。 














3.4.1 Pai CPi (2-Pass In-Memory Inversion) 
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法 的 示意 图 。 值 得 注意 的 一 点 是 : 此 方法 完全 是 在 内 存 里 完成 索引 的 创 
立 任务 的 。 











文档 个 数 N 






图 3-11 PEENE A 


第 一 遍 文 档 过 历 


在 第 一 遍 扫描 文档 集合 时 ， 该 方法 并 没有 立即 开始 建立 索引 ， 而 是 
收集 一 些 全 局 的 统计 信息 。 比 如 文档 集合 包含 的 文档 个 数 N， 文 档 集 合 
内 所 包含 的 不 同 单词 个 数 M， 每 个 单词 在 多 少 个 文档 中 出 现 过 的 信息 
DF。 将 所 有 单词 对 应 的 DF 值 全 部 相 加 ， 就 可 以 知道 建立 最 终 索 引 所 需 
的 内 存 大 小 是 多 少 ， 因 为 一 个 单词 对 应 的 DF 值 如 果 是 10， 说 明 有 10 个 
文档 包含 这 个 单词 ， 那 么 这 个 单词 对 应 的 倒 排 列表 应 该 包含 10 项 内 容 ， 
每 一 项 记载 某 个 文档 的 文档 ID 和 单词 在 该 文档 对 应 的 出 现 次 数 TF。 





在 获得 了 上 述 3 类 信息 后 ， 就 可 以 知道 最 终 索引 的 大 小 ， 于 是 在 内 
存 中 分 配 足够 大 的 空间 ， 用 来 存储 倒 排 索引 内 容 。 如 图 3-11 所 示 ， 在 内 
存 中 可 以 开辟 连续 存储 区 域 ， 因 为 第 一 遍 扫描 已 经 获得 了 每 个 单词 的 
DF 信息 ， 所 以 将 连续 存储 区 划分 成 不 同 大 小 的 片段 ， 词 典 内 某 个 单词 
根据 自己 对 应 的 DF 信息 ， 可 以 通过 指针 ， 指 向 属于 自己 的 内 存 片段 的 
起 始 位 置 和 终止 位 置 ， 将 来 在 第 二 遍 扫 描 时 ， 这 个 单词 对 应 的 倒 排 列表 
这 息 会 被 填充 进 这 个 片段 中 。 

综 上 所 述 ， 第 一 遍 扫描 的 主要 目的 是 获得 一 些 统计 信息 ， 并 根据 统 
计 信息 分 配 内 存 等 资源 ， 同 时 建立 好 单词 相对 应 倒 排列 表 在 内 存 中 的 位 
置信 息 ， 即 主要 做 些 资源 准备 工作 。 


第 二 这 文档 过 有 历 


在 第 二 壳 扫描 的 时 候 ， 开 始 真正 建立 每 个 单词 的 倒 排 列表 信息 ， 即 
对 条 个 单词 来 说 ， 获 得 包含 这 个 单词 的 每 个 文档 的 文档 ID， 以 及 这 个 单 
词 在 文档 中 的 出 现 次 数 TF， 这 样 束 可 以 不 断 填 充 第 一 授 扫 描 所 分 配 的 内 
存 空间 。 当 第 二 过 扫描 结束 的 时 候 ， 分 配 的 内 存 空间 正好 被 填充 满 ， 而 
每 个 单词 用 指针 所 指向 的 内 存 区 域 “ 厂 段 "”， 其 起 始 位 置 和 终止 位 置 之 间 
的 数据 就 是 这 个 单词 对 应 的 倒 排 列表 。 

经 过 两 裔 扫描 完 成 索引 建立 后 ， 即 可 将 内 存 的 倒 排 列表 和 词典 信息 
写 入 磁盘 ， 这 样 就 完成 了 建立 索引 的 过 程 。 从 上 述 流程 可 以 看 出 ， 索 引 
的 构建 完全 是 在 内 存 中 完成 的 ， 这 就 要 求 内 存 一 定 要 足够 大 ， 人 否则 如 果 
文档 集合 太 大 ， 内 存 未 必 能 够 满足 需求 。 

从 慷 外 一 个 角度 看 ， 在 建立 索引 的 过 程 中 ， 从 磁盘 读 取 文档 并 解析 
文档 基本 是 最 消耗 时 间 的 一 个 步骤 ， 而 两 遍 扫描 法 因为 要 对 文档 集合 进 
行 两 笛 抽 历 ， 所 以 从 速度 上 不 后 优势 ， 在 实际 中 采用 这 种 方法 的 系统 并 
不 常见 。 而 下 面 介绍 的 两 种 方法 都 是 对 文档 集合 进行 一 吉 扫 描 ， 所 以 在 
速度 方面 明显 后 优 。 



























































3.4.2 ”排序 法 〈Sort-based Inversion) 


两 遍 遍 历法 在 建立 索引 的 过 程 中 ， 对 内 存 的 消耗 要 求 较 高 ， 不 同 的 
文档 集合 包含 文档 数量 大 小 不 同 ， 其 所 需 内 存 大 小 是 不 确定 的 。 当 文档 
集合 非常 大 时 ， 可 能 因 内 存 不 够 ， 导 致 无 法 建立 索引 。 排 序 法 对 此 做 出 
了 改进 ， 该 方法 在 建立 索引 的 过 程 中 ， 始 终 在 内 存 中 分 配 固定 大 小 的 衬 
间 ， 用 来 存放 词典 信息 和 索引 的 中 间 结 果 ， 当 分 配 的 空间 被 消耗 光 的 时 























候 ， 把 中 间 结 采写 入 磁盘 ， 清 空 内 存 里 中 间 结 果 所 占 空间 ， 以 用 做 下 一 
轮 存 放 索 引 中 间 结 果 的 存储 区 。 这 种 方法 由 于 只 需要 固定 大 小 的 内 存 ， 
所 以 可 以 对 任意 大 小 的 文档 集合 建立 索引 〈 人 参考 图 3-12) 。 


单词 ID ”文档 ID ”单词 频率 
x 








图 3-12 ”排序 法 
中 间 结 末 内 存 排 序 


图 3-12 是 排序 法 在 内 存 中 建立 索引 中 间 结 果 的 示意 图 。 读 入 文档 
后 ， 对 文档 进行 编号 ， 赋 予 唯一 的 文档 ID， 并 对 文档 内 容 解析 。 对 于 文 
档 中 出 现 的 单词 ， 通 过 得 词典 将 单词 转换 为 对 应 的 单词 ID， 如 末 词 典 中 
没有 这 个 单词 ， 说 明 是 第 一 次 磁 到 ， 则 赋予 单词 以 唯一 的 单词 ID 并 插入 
词典 中 。 在 完成 了 由 单词 映射 为 单词 卫 的 过 程 之 后 ， 可 以 对 该 文档 内 每 
个 单词 建立 一 个 〈 单 词 ID、 文 档 ID、 单 词 频率 ) 三 元 组 ， 这 个 三 元 组 就 
是 单词 对 应 文档 的 倒 排 列表 项 ， 将 这 个 三 元 组 妃 加 进 中 间 结 果 存 储 区 末 
尾 。 如 果 文 档 内 的 所 有 单词 都 经 过 如 此 处 理 ， 形 成 三 元 组 序列 的 形式 ， 
则 该 文档 被 处 理 完成 ， 开 始 依次 友人 处 理 下 一 文档 ， 过 程 与 此 类 似 。 

随 大 新 的 文档 不 断 被 处 理 完成 ， 存 储 三 元 组 集合 的 中 间 结 果 有 所 占用 
的 内 存 会 越 来 越 大 ， 词 典 里 包含 的 新 单词 也 越 来 越 多 ， 当 分 配 的 内 存 定 
额 被 占 满 时 ， 该 方法 对 三 元 组 中 间 结 果 进 行 排序 。 排 序 的 原则 是 : 主键 




















征 单词 ID， 即 首先 要 按照 单词 ID 由 小 到 大 排序 ， 次 键 是 文档 ID， 即 在 相 
同 单词 ID 的 情况 下 ， 按 照 文档 ID 由 小 到 大 排序 。 通 过 以 上 方式 ， 三 元 组 
变 为 有 序 形式 。 为 了 腾 出 内 存 空间 ， 将 排 好 序 的 三 元 组 写 入 磁盘 临时 文 
件 中 ， 这 样 就 空 出 内 存 来 进行 后 续 文 档 的 处 理 。 这 里 需要 注意 的 是 : 在 
建立 索引 的 过 程 中 ， 词 典 是 一 直 存 储 在 内 存 中 的 ， 每 次 清空 内 存 只 是 将 
中 间 结 果 写 入 磁盘 。 随 着 处 理 文档 的 增加 ， 词 典 占 用 的 内 存 会 逐渐 增 

加 ， 由 于 分 配 内 存 是 固定 大 小 ， 而 词典 占用 内 存 越 来 越 大 ， 也 就 是 说 ， 
越 往 后 ， 可 用 来 存储 三 元 组 的 空间 是 越 来 越 少 的 。 

之 所 以 要 对 中 间 结 果 进 行 排序 ， 主 要 是 为 了 方便 后 续 的 处 理 。 因 为 
每 一 轮 处 理 都 会 在 磁盘 产生 一 个 对 应 的 中 间 结 果 文 件 ， 当 所 有 文档 处 理 
完成 后 ， 在 磁盘 中 会 有 多 个 中 间 结 果 文 件 ， 为 了 产生 最 终 的 索引 ， 需 要 
= 吉 果 文件 合并 。 图 3-13 是 如 何 对 中 间 结 果 进 行 合并 的 示意 
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图 3-13 ”中 间 结 果 合 并 





合并 中 间 结果 
如 图 3-13 所 示 ， 在 合并 中 间 结 果 的 过 程 中 ， 系 统 为 每 个 中 间 结 采 文 





件 在 内 存 中 开辟 一 个 数据 缓冲 区 ， 用 来 存放 文件 的 部 分 数据 。 因 为 在 形 
成 中 间 结 果 文 件 前 ， 已 经 按照 单词 ID 和 文档 ID 进行 了 排序 ， 所 以 进入 组 
冲 区 的 数据 已 经 是 有 序 的 。 合 并 过 程 中 ， 将 不 同 缓冲 区 中 包含 的 同一 个 
单词 D 的 三 元 组 进行 合并 ， 如 果 茶 个 单词 ID 的 所 有 三 元 组 全 部 合并 完 

成 ， 说 明 这 个 单词 的 倒 排列 表 已 经 构建 完成 ， 则 将 其 写 入 最 终 索 引 中 ， 

同时 将 各 个 缓冲 区 中 对 应 这 个 单词 ID 的 三 元 组 内 容 清空 ， 这 样 缓冲 区 就 
可 以 继续 从 中 间 绪 果 文 件 中 该 入 后 续 的 三 元 组 来 进行 下 一 个 单词 的 三 元 
组 合并 。 当 所 有 中 间 结 果 文 件 都 依次 被 读 入 缓冲 区 ， 在 合并 完成 后 ， 束 
形成 了 最 终 的 索引 文件 。 




















3.4.3 ”归并 法 CMerge-based Inversion ) 


排序 法 分 配 国定 大 小 内 存 来 建立 索引 ， 所 以 无 论 要 建立 索引 的 文档 
集合 有 多 大 ， 都 可 以 通过 这 种 方法 完成 。 但 是 如 上 所 述 ， 在 分 配 的 内 存 
定额 被 消耗 光 时 ， 排 序 法 只 是 将 中 间 结果 写 入 磁盘 ， 而 词典 信息 一 直 在 
内 存 中 进行 维护 ， 随 着 处 理 的 文档 越 来 越 多 ， 词 典 里 包含 的 词典 项 越 来 
越 多 ， 所 以 占用 内 存 越 来 越 大 ， 导 致 后 期 中 间 结果 可 用 内 存 越 来 越 少 。 
归并 法 对 此 做 出 了 改进 ， 即 每 次 将 内 存 中 数据 写 入 磁盘 时 ， 包 括 词典 在 
内 的 所 有 中 间 结 果 信 息 都 被 写 入 磁盘 ， 这 样 内 存 所 有 内 容 都 可 以 被 清 
空 ， 后 续 建立 索引 可 以 使 用 全 部 的 定额 内 存 。 

图 3-14 是 归并 法 的 示意 图 。 其 整体 流程 和 排序 法 大 致 相同 ， 也 是 分 
为 两 个 大 的 阶段 ， 首 先 在 内 存 里 维护 中 间 结果 ， 当 内 存 占 满 后 ， 将 内 存 
数据 写 入 磁盘 临时 文件 ， 第 二 阶段 对 临时 文件 进行 归并 形成 最 终 索 引 。 























内 存 索 引 








图 3-14 ”归并 法 


尽管 从 整体 流程 看 ， 和 排序 法 大 致 相同 ， 但 是 在 具体 实现 方式 上 有 
BK FEF o 

首先 ， 排 序 法 在 内 存 中 存放 的 是 词典 信息 和 三 元 组 数据 ， 在 建立 索 
引 的 过 程 中 ， 词 典 和 三 元 组 数据 并 没有 直接 的 联系 ， 词 典 只 是 为 了 将 单 
词 映 射 为 单词 TD。 而 归并 法 则 是 在 内 存 中 建立 一 个 完整 的 内 存 索 引 结 
构 ， 相 当 于 对 目前 处 理 的 文档 子 集 单 独 在 内 存 中 建立 起 了 一 整套 倒 排 索 
引 ， 和 最 终 索 引 相 比 ， 其 结构 和 形式 是 相同 的 ， 区 别 只 是 这 个 索引 只 是 
部 分 文档 的 索引 而 非 全 部 文档 的 索引 。 

其 次 ， 在 将 中 间 结 果 写 入 磁盘 临时 文件 时 ， 归 并 法 会 将 整个 内 存 的 
倒 排 索引 写 入 临时 文件 ， 对 于 某 个 单词 的 倒 排 列表 在 写 入 磁盘 文件 时 ， 
将 词典 项 放 在 列表 最 前 端 ， 之 后 跟随 相应 的 倒 排列 表 ， 这 样 依次 将 单词 
和 对 应 的 倒 排列 表 写 入 磁盘 文件 ， 随 后 彻底 清空 所 占 内 存 。 而 排序 法 如 
上 节 所 述 ， 只 是 将 三 元 组 数据 排序 后 写 入 人 磁盘 临时 文件 ， 词 典 作 为 一 个 
映射 表 一 直 存 储 在 内 存 中 。 

在 最 后 的 临时 文件 合并 为 最 终 索引 的 过 程 中 ， 两 者 也 有 差异 。 排 序 
法 因为 保存 的 是 有 序 三 元 组 信息 ， 所 以 在 合并 时 ， 是 对 同一 单词 的 三 元 
组 依次 进行 合并 ;， 而 归并 法 的 临时 文件 则 是 每 个 单词 对 应 的 部 分 倒 排列 
表 ， 所 以 在 合并 时 针对 每 个 单词 的 倒 排 列表 进行 合并 ， 形 成 这 个 单词 的 
最 终 倒 徘 列表 。 为 和 外， 归并 法 在 最 后 的 合并 过 程 中 形成 最 终 的 词典 信 
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3.5 动态 索引 


如 果 搜 索引 擎 需要 处 理 的 文档 集合 是 静态 集合 ， 那 么 在 索引 建立 好 
之 后 ， 就 可 以 一 直 用 建 好 的 索引 响应 用 户 查 询 请 求 。 但 是 ， 在 真实 环境 
中 ， 搜 索引 擎 需要 处 理 的 文档 集合 往往 是 动态 集合 ， 即 在 建 好 初始 的 索 
引 后 ， 后 续 不 断 有 新 文档 进入 系统 ， 同 时 原先 的 文档 集合 内 有 些 文档 可 
能 被 删除 或 者 内 容 被 更 改 。 典 型 的 例子 束 是 架 面 搜索 ， 当 新 下 载 一 篇 文 
档 ， 那 么 搜索 系统 需要 及 时 将 其 纳入 ， 删 除 某 篇 文档 也 需要 在 非常 短 的 
时 间 内 在 搜索 结果 里 体现 出 来 。 大 多 数 搜索 引擎 面临 的 应 用 场景 是 类 似 
的 动态 环境 。 

索引 系统 如 何 能 够 做 到 实时 反映 这 种 变化 呢 ? 动态 索引 可 以 实现 这 
种 实时 性 要 求 ， 图 3-15 是 动态 索引 的 示意 图 。 在 这 种 动态 索引 中 ， 有 3 
个 关键 的 索引 结构 : 倒 排 索引 、 临 时 索引 和 已 删除 文档 列表 。 

















倒 排 列表 
图 3-15 ”动态 索引 


倒 排 索引 就 是 对 初始 文档 集合 建立 好 的 索引 结构 ， 一 般 单 词 词典 存 














储 在 内 存 ， 对 应 的 倒 排列 表 存 储 在 磁盘 文件 中 。 临 时 索引 是 在 内 存 中 实 
时 建立 的 倒 排 索引 ， 其 结构 和 前 述 的 倒 排 索引 是 一 样 的 ， 区 别 在 于 词典 
和 倒 排列 表 都 在 内 存 中 存储 。 当 有 新 文档 进入 系统 时 ， 实 时 解析 文档 并 
将 其 追加 进 这 个 临时 索引 结构 中 。 已 删除 文档 列表 则 用 来 存储 已 被 删除 
的 文档 的 相应 文档 ID， 形 成 一 个 文档 ID 列表 。 这 里 需要 注意 的 是 : 当 一 
篇 文档 内 容 被 更 改 ， 可 以 认为 是 旧 文 档 先 被 删除 ， 之 后 向 系统 内 增加 一 
篇 新 的 文档 ， 通 过 这 种 间接 方式 实现 对 内 容 更 改 的 支持 。 

当 系统 及 现 有 新 文档 进入 时 ， 立 即将 其 加 入 临时 索引 中 。 有 文档 被 
删除 时 ， 则 将 其 加 入 删除 文档 队列 。 文 档 被 更 改 时 ， 则 将 原先 文档 放 入 
删除 队列 ， 解 析 更 改 后 的 文档 内 容 ， 并 将 其 加 入 临时 索引 中 。 通 过 这 种 
方式 可 以 满足 实时 性 的 要 求 。 

如 朱 用 户 输入 得 询 请 求 ， 则 搜索 引擎 同时 从 倒 排 索 引 和 临时 索引 中 
读 取 用 户 碍 询 单词 的 倒 排列 表 ， 找 到 包含 用 户 查 询 的 文档 集合 ， 并 对 两 
个 结果 进行 合并 ， 之 后 利用 删除 文档 列表 进行 过 小 ， 将 搜索 结果 中 那些 
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户 。 这 样 就 能 够 实现 动态 环境 下 的 准 实时 搜索 功能 


3.6 索引 更 新 策略 


动态 索引 通过 在 内 存 中 维护 临时 索引 ， 可 以 实现 对 动态 文档 和 实时 
搜索 的 支持 。 但 是 服务 器 内 存 总 是 有 限 的 ， 随 着 新 加 入 系统 的 文档 越 来 
越 多 ， 临 时 索引 消耗 的 内 存 也 会 随 之 增加 。 当 最 初 分 配 的 内 存 将 被 使 用 
完 时 ， 要 考虑 将 临时 索引 的 内 容 更 新 到 磁盘 索引 中 ， 以 释放 内 存 空间 来 
容纳 后 续 的 新 进 文档 ， 此 时 要 考虑 合理 有 效 的 索引 更 新 策略 。 

常用 的 索引 更 新 策略 有 4 种 : 完全 重建 策略 、 再 合并 策略 、 原 地 更 
新 策略 及 混合 策略 。 


3.6.1 完全 重建 策略 (Complete Re-Build) 


完全 重建 策略 是 一 个 相当 直观 的 方法 ， 当 新 增 文档 达到 一 定数 量 ， 
将 新 增 文 档 和 原先 的 老 文档 进行 合并 ， 然 后 利用 前 述 章节 所 到 的 建立 索 
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遗弃 释放 ， 之 后 对 用 户 查 询 的 啊 应 完全 由 新 的 索引 负责。 图 3-16 是 这 种 
打上 略 的 说 明示 意图 。 























图 3-16 ”完全 重建 策略 
因为 重建 驼 引 需要 较 长 时 间 ， 在 进行 汉 引 重建 的 过 程 中 ， 内 存 中 仍 





然 需要 维护 老 的 索引 ， 来 对 用 户 的 查询 做 出 啊 应 。 只 有 当 新 索引 完全 建 
并 完成 后 ， 才 能 释放 旧 的 索引 ， 将 用 户 查 询 啊 应 切换 到 新 索引 上 。 

这 种 重建 策略 比较 适合 小 文档 集合 ， 因 为 完全 重建 索引 的 代价 较 
高 ， 但 是 目前 主流 丙 业 搜索 引擎 一 般 是 采用 此 方式 来 维护 索引 的 更 新 
的 ， 这 与 互联 网 本 里 的 特性 有 关 。 


3.6.2 再 合并 策略 (Re-Merge) 


有 新 增 文 档 进 入 搜索 系统 时 ， 搜 索 系 统 在 内 存 维 护 临 时 倒 排 索引 来 
记录 其 信息 ， 当 新 增 文 档 达 到 一 定数 量 ， 或 者 指定 大 小 的 内 存 被 消耗 
完 ， 则 把 临时 索引 和 老 文 档 的 倒 排 索引 进行 合并 ， 以 生成 新 的 索引 。 图 
3-17 是 这 种 策略 的 一 种 图 示 。 














图 3-17 再 合并 策略 
在 实际 的 搜索 系统 中 ， 再 合并 策略 按照 以 下 步骤 进行 索引 内 容 的 更 


当 新 增 文 档 进入 系统 ， 解 析 文 档 ， 之 后 更 新 内 存 中 维护 的 临时 
索引 ， 文 档 中 出 现 的 每 个 单词 ， 在 其 倒 排 列表 末尾 奶 加 倒 排 列表 项 ， 这 
个 临时 索引 可 称 为 增 量 索引 。 

一 旦 增 量 索引 将 指定 的 内 存 消耗 光 ， 此 时 需要 进行 一 次 索引 合 
并 ， 即 将 增 量 索 引 和 老 的 倒 排 索引 内 容 进 行 合 并 ， 图 3-18 是 合并 过 程 示 
意图 。 这 里 需要 注意 的 是 : 倒 排 文件 里 的 倒 排 列表 存放 顺序 已 经 按照 索 
引 单 词 字典 顺序 由 低 到 高 进行 了 排序 ， 增 量 索 引 在 过 历 词 典 的 时 候 也 按 
照 字 上 典 序 由 低 到 高 排列 ， 这 样 对 老 的 倒 排 文件 只 需 进行 一 过 扫 描 ， 并 可 
顺序 读 取 ， 减 少 了 文件 操作 中 比较 耗 时 的 磁盘 寻 道 时 间 ， 可 以 有 效 地 提 


高 合并 效率 。 
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图 3-18 合并 增 量 索引 与 老 的 倒 排 索引 内 容 
在 合并 过 程 中 ， 需 要 依次 所 有 历 增 量 索引 和 老 索 引 单 词 词典 中 包含 的 











单词 及 其 对 应 的 倒 排列 表 ， 可 以 用 两 个 指针 分 别 指 同 两 套 索 引 中 目前 需 
T 

考虑 增 量 索引 的 单词 指针 指 辣 的 单词 ， 如 果 这 个 单词 在 词典 序 中 小 
于 老 索 引 的 单词 指针 指向 的 单词 ， 说 明 这 个 单词 在 老 索 引 中 未 出 现 过 ， 
则 直接 将 这 个 单词 对 应 的 倒 排 列表 写 入 新 索引 的 倒 排 文件 中 ， 同 时 增 量 
索引 单词 指针 后 移 指 癌 下 一 个 单词 。 

如 有 果 两 个 单词 指针 指 问 的 单词 相同 ， 说 明 这 个 单词 在 增 量 索 引 和 老 
索引 中 同时 出 现 ， 则 将 老 索 引 中 这 个 单词 对 应 的 倒 排列 表 写 入 新 索引 的 
倒 排列 表 ， 然 后 把 增 量 索引 中 这 个 单词 对 应 的 倒 排列 表 退 加 到 其 后 ， 这 
样 束 完成 了 这 个 单词 所 有 倒 排 列表 的 合并 。 图 3-18 中 第 头 所 指 单词 是 搜 
索 ， 说 明 此 时 合并 到 了 该 单词 ， 因 为 在 老 的 索引 系统 和 增 量 索引 中 都 包 
含 这 个 单词 ， 所 以 首先 将 老 索 引 对 应 的 倒 排 列表 追加 到 新 索引 倒 排 文件 
末尾 ， 之 后 将 增 量 索引 中 搜索 这 个 单词 对 应 的 倒 排列 表 追 加 在 其 后 ， 这 























样 就 完成 了 这 个 单词 罕 引 项 的 合并 。 两 个 索引 的 单词 指针 都 移动 到 下 一 
个 单词 继续 进行 合并 。 

如 果 某 个 单词 只 在 老 索引 中 出 现 过 ， 即 发 现 老 索 引 的 单词 指针 指向 
的 单词 ， 其 词典 序 小 于 增 量 索引 单词 指针 指向 的 单词 ， 则 直接 将 老 索引 
中 对 应 的 倒 排 列表 写 入 新 索引 倒 排 文件 中 。 老 索引 的 单词 指针 后 移 指向 
下 一 个 单词 ， 继 续 进行 合并 。 

当 两 个 索引 的 所 有 单词 都 遍历 完成 后 ， 新 索引 建成 ， 此 时 可 以 遗弃 
释放 老 索引 ， 使 用 新 索引 来 响应 用 户 查 询 请 求 。 

同样 地 ， 在 按照 这 个 策略 进行 索引 合并 的 过 程 中 ， 为 了 能 够 响应 用 
户 查询 ， 在 合并 索引 期 间 ， 需 要 使 用 老 索引 响应 用 户 查询 请 求 。 

再 合并 策略 是 效率 非常 高 的 一 种 索引 更 新 策略 ， 主 要 原因 在 于 : 在 
对 老 的 倒 排 索引 进行 遍历 时 ， 因 为 已 经 按照 索引 单词 的 词典 序 由 低 到 高 
排 好 顺序 ， 所 以 可 以 顺序 读 取 文 件 内 容 ， 减 少 磁盘 寻 道 时 间 ， 这 是 其 高 
效 的 根本 原因 。 但 是 这 各 方法 也 有 其 缺点 ， 因 为 要 生成 新 的 合 排 索引 文 
件 ， 所 以 对 于 老 索引 中 的 很 多 单词 来 说 ， 尽 管 其 倒 排 列表 并 未 发 生 任何 
变化 ， 但 是 也 需要 将 其 从 老 索 引 中 读 取出 来 并 写 入 新 索引 中 ， 这 种 对 碰 
盘 输入 输出 的 消耗 是 没有 太 大 必要 且 非 常 耗 时 的 。 


3.6.3” 原 地 更 新 案 略 (In-Place) 


原 地 更 新 策略 的 基本 出 发 点 ， 可 以 认为 是 试图 改进 再 合并 策略 的 缺 
点 。 也 就 是 说 ， 在 索引 更 新 过 程 中 ， 如 果 老 索引 的 倒 排列 表 没有 变化 ， 
可 以 不 需要 读 取 这 些 信息 ， 而 只 对 那些 倒 排列 表 变化 的 单词 进行 处 理 。 
甚至 希望 能 更 进一步 ， 即使 老 索 引 的 倒 排列 表 发 生变 化 ， 是 否 可 以 只 在 
其 末尾 进行 追加 操作 ， 而 不 需要 读 取 原 先 的 倒 排列 表 并 重 写 到 磁盘 另 一 
个 位 置 ? 如 果 能 够 达到 这 个 目标 ， 明 显 可 以 大 量 减 少 磁盘 读 / 写 操作 ， 
提升 系统 执行 效率 。 

为 了 达到 上 述 目标 ， 原 地 更 新 策略 在 索引 合并 时 ， 并 不 生成 新 的 索 
引文 件 ， 而 是 直接 在 原先 老 的 索引 文件 里 进行 追加 操作 (参考 图 3- 
19) ， 将 增 量 索引 里 单词 的 倒 排列 表 项 追加 到 老 索引 相应 位 置 的 未 尾 ， 
这 样 就 可 达到 上 述 目标 ， 即 只 更 新 增 量 索引 里 出 现 的 单词 相关 信息 ， 其 
他 单词 相关 信息 不 做 变动 。 


















































图 3-19 ” 原 地 更 新 策略 
但 是 这 里 存在 一 个 问题 : 对 于 倒 排 文 件 中 的 两 个 相 邻 单词 ， 为 了 在 





查询 时 加 快 读 取 速 度 ， 其 倒 排列 表 一 般 是 顺序 序列 存储 的 ， 这 导致 没有 
空余 位 置 用 来 退 加 新 信息 。 为 了 能 够 文 持 退 加 操作 ， 原 地 更 新 集 略 在 初 
台 建 芯 的 索引 中 ， 会 在 每 个 单词 的 倒 排列 表 末 尾 预 留 出 一 定 的 磁盘 衬 
间 ， 这 样 ， 在 进行 索引 合并 时 ， 可 以 将 增 量 索 引 追 加 到 预 留 空间 中 。 

图 3-20 是 这 种 合并 策略 的 一 个 资 明 。 在 图 中 ， 老 索引 中 每 个 单词 的 
倒 排列 表示 尾 都 了 预 留 出 空余 磁盘 空间 ， 以 作为 信息 退 加 时 的 存储 区 域 。 
在 对 新 增 索 引进 行 合并 时 ， 按 照 词 典 序 ， 依 次 过 有 历 新 增 索引 中 包含 的 单 
词 ， 并 对 新 增 倒 排 列表 的 大 小 和 老 索 引 中 相应 预 留 空间 大 小 进行 比较 ， 
如 条 预 留 空间 足够 大 ， 则 将 新 增 列 表 追 加 到 老 索 引 即 可 ， 如 果 了 预 留 空间 
不 足以 容纳 新 增 倒 排列 表 ， 那 么 此 时 需要 在 磁盘 中 找到 一 块 完整 的 连续 
存储 区 ， 这 个 存储 区 足以 容纳 这 个 单词 的 倒 排列 表 ， 之 后 将 老 索 引 中 的 
倒 排列 表 读 出 并 写 入 新 的 磁盘 位 置 ， 并 将 增 量 索 引 对 应 的 倒 排 列表 追加 
到 其 后 ， 这 样 就 完成 了 一 次 倒 排 列表 的 “迁移 ?工作 。 
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图 3-20 原 地 更 新 集 略 索引 合并 


在 如 图 3-20 所 示 的 例子 中 ， 可 以 看 出 ， 单 词 “技术 ”和 “引擎 "在 老 索 
引 中 的 预 留 空 间 足 够 大 ， 所 以 对 增 量 索 引 只 需 做 追加 写 入 即 可 ， 但 是 对 
于 单词 “搜索 ”来 说， 其 预 留 空间 不 足以 容纳 新 增 倒 排列 表 ， 所 以 这 个 单 
词 的 倒 排列 表 需 要 迁移 到 磁盘 另外 一 个 连续 存储 区 中 。 

原 地 更 新 全 略 的 出 发 点 很 好 ， 但 是 实验 数据 证 明 其 索引 更 新 效率 比 
再 合并 策略 低 ， 主 要 是 出 于 以 下 两 个 原因 。 

在 这 种 方法 中 ， 对 倒 排 列表 进行 “迁移 ”是 比较 常见 的 操作 ， 为 了 能 
够 进行 快速 迁移 ， 需 要 找到 足够 大 的 磁盘 连续 存储 区 ， 所 以 这 个 策略 需 
要 对 磁盘 可 用 空间 进行 维护 和 管理 ， 而 这 种 维护 和 得 找 成 本 非常 高 ， 这 
成 为 该 方法 效率 的 一 个 瓶颈 。 

对 于 倒 排 文件 中 的 相 邻 索引 单词 ， 其 倒 排 列表 顺序 一 般 是 按照 相 邻 
































单词 的 词典 序 存储 的 ， 但 是 由 于 原 地 更 新 策略 对 单词 的 倒 排 列表 做 数据 
迁移 ， 某 些 单词 及 其 对 应 倒 排 列表 会 从 老 索 引 中 移出 ， 这 样 就 破坏 了 这 
种 单词 连续 性 ， 导 致 在 进行 索引 合并 时 不 能 进行 顺序 读 取 ， 必 须 维护 一 
个 单词 到 其 倒 排 文 件 相应 位 置 的 映射 表 ， 而 这 样 做 ， 一 方面 降低 了 磁盘 
读 取 速 度 ， 另 外 一 方面 需要 大 量 的 内 存 来 存储 这 种 映射 信息 。 


3.6.4 混合 有 策略 (Hybrid) 


混合 策略 的 出 发 点 是 能 够 结合 不 同 索 引 更 新 全 略 的 长 处 ， 将 不 同 的 
索引 更 新 策略 混合 ， 以 形成 更 高 效 的 方法 。 

混合 策略 一 般 会 将 单词 根据 其 不 同性 质 进 行 分 类 ， 不 同类 别 的 单 
词 ， 对 其 索引 采取 不 同 的 索引 更 新 集 略 。 管 见 的 做 法 是 : 根据 单词 的 倒 
排列 表 长 度 进行 区 分 ， 因 为 有 些 单词 经 常 在 不 同文 档 中 出 现 ， 所 以 其 对 
应 的 倒 排列 表 较 长 ， 而 有 些 单词 很 少见 ， 则 其 倒 排 列表 就 较 短 。 根 据 这 
一 性 质 将 单词 划分 为 长 倒 排 列表 单词 和 短 倒 排 列表 单词 。 长 倒 排 列表 单 
词 采 取 原 地 更 新 集 略 ， 而 短 倒 排 列表 单词 则 采取 再 合并 全 上 略 。 

之 所 以 这 样 做 ， 是 由 于 原 地 更 新 策略 更 适合 长 倒 排 列表 单词 ， 因 为 
这 种 策略 能 够 节省 磁盘 读 / 写 次 数 ， 而 长 倒 排列 表单 词 的 读 / 写 开 销 明 
显要 比 短 倒 排列 表单 词 大 很 多 ， 所 以 如 果 采 用 原 地 更 新 集 略 ， 效 果 体 现 
得 比较 显著 。 而 大 量 短 倒 排列 表单 词 读 / 写 开 销 相 对 而 言 不 算 太 大 ， 所 
以 利用 再 合并 打上 略 来 处 理 ， 则 其 顺序 读 / 写 优势 也 能 被 充分 利用 。 


3.7 ”查询 处 理 


为 搜索 引擎 构建 索引 ， 其 目的 是 能 更 快速 地 提取 与 用 户 碍 询 相 关 的 
文档 信息 ， 假 设 搜索 引擎 已 经 根据 前 述 间 市 内 容 建立 好 了 索引 ， 如 何 利 
用 倒 排 索引 来 啊 应 用 户 的 查询 ? 本 节 主 要 描述 搜索 引擎 对 于 用 户 碍 询 的 
处 理 过 程 。 目 前 有 两 种 常见 的 碍 询 处 理 机 制 ， 一 种 被 称 做 一 次 一 文档 方 
式 ， 妨 外 一 种 被 称 为 一 次 一 单词 方式 。 除 了 两 种 基本 的 得 询 处 理 过 程 ， 
本 节 还 介绍 跳跃 指针 这 种 查询 优化 过 程 。 

下 面 我 们 用 一 个 具体 的 例子 来 分 别 说 明 两 种 基本 奋 询 处 理 方式 的 运 
行 机 制 。 在 这 个 例子 里 ， 假 设 用 户 输入 的 查询 为 “搜索 引擎 ”技术 ”， 
而 “搜索 引擎 ”这 个 单词 对 应 的 倒 排 列表 中 ， 文 档 ID 依 次 为 {1,3,4},“ 技 
术 ” 这 个 单词 对 应 的 倒 排 列表 中 ， 文 档 ID 列 表 为 {1,2,4}。 从 这 两 个 倒 排 
列表 可 以 看 出 ， 文 档 1 和 文档 4 同时 包含 了 这 两 个 查询 词 。 















































3.7.1 一 次 一 文档 (Doc ata Time) 


搜索 引擎 接收 到 用 户 的 碍 询 后 ， 首 移 将 两 个 单词 的 倒 排列 表 从 磁盘 
读 入 内 存 。 所 谓 的 一 次 一 文档 ， 就 是 以 倒 排 列表 中 包含 的 文档 为 单位 ， 
每 次 将 其 中 菏 个 文档 与 查询 的 最 终 相 似 性 得 分 计算 完毕 ， 然 后 开始 计算 
另外 一 个 文档 的 最 终 得 分 ， 直 到 所 有 文档 的 得 分 都 计算 完毕 为 止 。 








图 3-21 是 一 次 一 文档 的 计算 机 制 示 意图 ， 为 了 便于 理解 ， 图 中 对 于 
两 个 单词 的 倒 排 列表 中 的 公共 文档 (文档 1 和 文档 4) 进行 了 对 齐 。 图 中 
虚线 箭头 标 出 了 和 碍 询 处 理 计算 的 行进 方 癌 。 





图 3-21 一 次 一 文档 


对 于 文档 1 来 说 ， 因 为 两 个 单词 的 倒 排 列表 中 都 包含 这 个 文档 ， 所 
以 可 以 根据 各 自 的 TF 和 IDF 等 参数 计算 文档 和 查询 单词 的 相似 性 (具体 
计算 方法 请 参考 第 5 草 内 容 ， 此 处 为 了 方便 说 明 ， 对 相似 性 计算 做 了 简 
化 处 理 ) ， 之 后 将 两 个 分 数 相 加 获得 了 文档 1 和 用 户 查 询 的 相似 性 得 
分 。 随 后 搜索 系统 开始 处 理 文档 2， 因 为 文档 2 只 在 “技术 ”这 个 词汇 的 倒 
排列 表 中 ， 所 以 根据 相应 的 TF 和 IDF 计 算 相 似 性 后 ， 即 可 得 出 文档 2 和 
用 户 查 询 的 相似 性 得 分 。 用 类 似 的 方法 依次 处 理 文档 3 和 文档 4。 所 有 文 
档 都 计算 完毕 后 ， 根 据 文 档 得 分 进行 大 小 排序 ， 输 出 得 分 最 高 的 K 个 文 
档 作 为 搜索 结果 输出 ， 即 完成 了 一 次 用 户 碍 询 的 啊 应 。 

因为 搜索 系统 的 输出 结果 往往 是 限定 个 数 的 ， 比 如 指定 输出 10 个 结 
果 ， 所 以 在 实际 实现 一 次 一 文档 方式 时 ， 不 必 保 存 所 有 文档 的 相关 性 得 
分 ， 而 只 需要 在 内 存 中 维护 一 个 大 小 为 K 的 优先 级 别 队 列 ， 用 来 保存 目 
前 计算 过 程 中 得 分 最 高 的 K 个 文档 即 可 ， 这 样 可 以 节省 内 存 和 计算 时 
间 ， 一 般 会 采用 根 堆 数据 结构 来 实现 这 个 优先 级 别 队 列 ， 在 计算 结束 
时 ， 按 照 得 分 大 小 输出 就 可 以 实现 搜索 的 目标 。 























3.7.2 一 次 一 单词 (Term at a Time) 





一 次 一 单词 的 计算 过 程 与 一 次 一 文档 不 同 ， 一 次 一 文档 可 以 直观 理 
解 为 在 单词 一 文档 矩阵 中 ， 以 文档 为 单位 ， 纵 同 进行 分 数 宗 计 ， 之 后 移 
动 到 后 续 文档 接着 计算 ， 即 计算 过 程 是 “ 先 纵 向 再 横 疝 ”而 一 次 一 单词 
则 是 采取 * 先 横 癌 再 纵 癌 ?的 方式 ， 即 首先 将 茶 个 单词 对 应 的 倒 排列 表 中 
的 每 个 文档 ID 都 计算 一 个 部 分 相似 性 得 分 ， 也 就 是 说 ， 在 单词 一 文档 矩 
阵 中 痛 先 进行 模 问 移动 ， 在 计算 完毕 某 个 单词 倒 排列 表 中 包含 的 所 有 文 
档 后 ， 接 着 计算 下 一 个 单词 倒 排 列表 中 包含 的 文档 ID， 即 进行 纵 问 计 
算 ， 如 果 发 现 茶 个 文档 ID 已 经 有 了 得 分 ， 则 在 原先 得 分 基础 上 进行 累 
加 。 当 所 有 单词 都 处 理 完毕 后 ， 每 个 文档 最 终 的 相似 性 得 分 计算 结束 ， 
之 后 按照 大 小 排序 ， 输 出 得 分 最 高 的 K 个 文档 作为 搜索 结果 。 

图 3-22 是 一 次 一 单词 的 运算 机 制图 示 说 明 ， 图 中 虚线 箭头 指示 出 了 
计算 的 行进 方向 ， 为 了 保存 数据 ， 在 内 存 中 使 用 哈 希 表 来 保存 中 间 结 果 
及 最 终 计算 结果 。 搜 索 系 统 首先 对 包含 “搜索 引擎 ”的 所 有 文档 进行 部 分 
得 分 计算 ， 比 如 对 于 文档 1， 可 以 根据 TF 和 IDF 等 参数 计算 这 个 文档 
对 “搜索 引擎 "这 个 查询 词 的 相似 性 得 分 ， 之 后 根据 文档 ID 在 哈 希 表 中 得 
找 ， 并 把 相似 性 得 分 保存 在 哈 希 表 中 。 依 次 对 文档 3 和 文档 4 进行 类 似 的 
计算 。 当 “搜索 引擎 ”这 个 单词 的 所 有 文档 都 计算 完毕 后 ， 开 始 计算 “ 技 
术 ” 这 个 单词 的 相似 性 得 分 ， 对 于 文档 1 来 说 ， 同 样 地 ， 根 据 TF 和 IDF 等 
参数 计算 文档 1 和 “ 拉 术 ”这 个 单词 的 相似 性 得 分 ， 之 后 查找 哈 希 表 ， 发 
现 文 档 1 已 经 存在 得 分 〈“ 搜 索引 擎 "这 个 单词 和 文档 1 的 相似 性 得 分 ) ， 
则 将 哈 希 表 对 应 的 得 分 和 刚刚 计算 出 的 得 分 相 加 作为 最 终 得 分 ， 并 更 新 
了 哈 硕 表 中 文档 1 对 应 的 得 分 分 值 ， 获 得 了 文档 1 和 用 户 碍 询 最 终 的 相似 性 
得 分 ， 之 后 以 类 似 的 方法 ， 依 次 计算 文档 2 和 文档 4 的 得 分 。 当 全 部 计算 
完毕 时 ， 哈 希 表 中 存储 了 每 个 文档 和 用 户 查 询 的 最 终 相 似 性 得 分 ， 排 序 
后 输出 得 分 最 蜗 的 K 个 文档 作为 搜索 结果 。 这 样 ， 就 以 一 次 一 单词 的 方 
式 完 成 了 对 用 户 碍 询 的 啊 应 。 
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图 3-22 一 次 一 单词 
3.7.3 ”跳跃 指针 (Skip Pointers) 


如 果 用 户 输 入 的 查询 包含 多 个 查询 词 ， 搜 索引 擎 一 般 默认 是 采取 与 
逻辑 来 判别 文档 是 否 满 足 要 求 ， 即 要 求 相关 网 页 必须 包含 所 有 的 查询 
词 ， 比 如 用 户 输入 查询 “搜索 引擎 ”技术 ”， 只 有 同时 包含 两 个 词汇 的 网 
页 才 会 被 认为 是 相关 的 ， 只 包含 其 中 任意 一 个 关键 词 的 网 页 不 会 作为 搜 
索 结果 输出 。 

很 明显 ， 对 于 这 种 应 用 场景 ， 一 次 一 文档 的 查询 处 理 方式 是 比较 适 
合 的 。 对 于 多 词 查 询 ， 找 到 包含 所 有 查询 词 的 文档 ， 等 价 于 求 查询 词 对 
应 的 倒 排 列表 的 交集 。 

图 3-23 显 示 了 “搜索 引擎 ”和 “技术 ”两 个 单词 对 应 的 倒 排 列表 ， 为 了 
简化 问题 ， 我 们 假设 倒 排列 表 里 只 存储 文档 ID。 从 图 3-23 可 以 看 出 ， 包 
售 “ 搜 索引 擎 ”单词 的 文档 ， 分 别 为 文档 5、 文 档 7、 文 档 8 等 。 假 设 用 户 
输入 查询 “搜索 引擎 ”技术 ”， 搜 索 系 统 需 要 从 索引 结构 中 找 出 包含 所 有 
用 户 查 询 单 词 的 文档 列表 ， 在 图 3-23 的 索引 结构 示例 中 ， 即 需要 找 
出 “搜索 引擎 "和 “技术 ”这 两 个 查询 词 各 自 对 应 倒 排列 表 的 文档 ID 交集 
{5,21,23}， 这 3 个 文档 包含 所 有 查询 词汇 ， 即 是 我 们 需要 的 文档 。 




















搜索 引擎 > 5, 7,8, 15, 17, 21, 23, 35, 76 


技术 > 29 6.7. 14,0193. 38 











图 3-23 ”索引 示例 


如 果 倒 排列 表 直 接 存储 包含 查询 词 的 文档 ID， 那 么 计算 交集 是 非常 
直观 和 简单 的 ， 其 基本 操作 即 是 在 一 个 倒 排列 表 里 查 询 某 个 文档 ID 是 否 
存在 ， 通 过 归并 排序 即 可 获得 O (mtn) 时 间 复 杂 度 的 算法 。 如 果 文 档 
ID 是 以 文档 编号 差 值 (D—Gap) 形式 存储 的 ， 另 外 这 个 差 值 是 以 压缩 
后 的 方式 编码 的 ， 那 么 如 何 求 倒 排 列表 的 交集 就 会 复杂 化 。 为 了 求 两 个 
查询 词 对 应 倒 排列 表 的 交集 ， 首 先 需要 将 两 个 单词 对 应 的 倒 排 列表 读 入 
内 存 ， 然 后 对 数据 解压 缩 恢复 到 文档 编号 差 值 的 形式 ， 之 后 还 需要 将 其 
恢复 成 文档 ID 的 有 序列 表 ， 在 此 基础 上 才能 进行 集合 交集 运算 。 而 跳跃 
8 针 思想 的 引入 ， 即 可 加 快 倒 排列 表 求 交集 这 一 计算 过 程 。 

跳跃 指针 的 基本 思想 是 将 一 个 倒 排列 表 数 据 化 整 为 零 ， 切 分 为 若干 
个 固定 大 小 的 数据 块 ， 一 个 数据 块 作为 一 组 ， 对 于 每 个 数据 块 ， 增 加 元 
信息 来 记录 关于 这 个 块 的 一 些 信息 ， 这 样 即使 是 面 对 压 缩 后 的 倒 排列 
表 ， 在 进行 倒 排 列表 合并 的 时 候 也 能 有 两 个 好 处 ， 一 个 好 处 是 无 须 解 压 
缩 所 有 倒 排列 表 项 ， 只 解压 缩 部 分 数据 即 可 ， 另 外 一 个 好 处 是 无 须 比较 
任意 两 个 文档 ID， 通 过 这 两 种 方式 有 效 节省 了 计算 资源 和 存储 资源 。 

图 3-24 即 是 将 “Google” 这 个 查询 词 对 应 的 倒 排列 表 加 入 跳跃 指针 后 
的 数据 结构 。 我 们 假设 对 于 “Google” 这 个 单词 的 倒 排 列表 来 说 ， 数 据 块 
的 大 小 为 9， 即 每 块 数据 包含 3 个 文档 ID 及 其 词 频 信息 。 之 后 ， 我 们 可 以 
在 每 块 数据 前 面 加 入 管理 信息 ， 比 如 第 1 块 的 管理 信息 是 <<5,Pos1>>， 
其 中 数字 5 代表 块 中 第 1 个 文档 ID 的 编号 ，Pos1 即 是 跳跃 指针 ， 指 向 第 2 
块 的 起 始 位 置 。 
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图 3-24 跳跃 指针 


建 好 上 述 索 引 结构 ， 如 何在 一 个 带 有 跳跃 指针 的 倒 排列 表 里 查 找 某 
个 文档 是 否 存在 呢 ? 

假设 我 们 需要 在 单词 “Google” 压 缩 后 的 倒 排 列表 里 查找 文档 编号 为 
7 的 文档 。 首 先 ， 对 倒 排 列表 前 两 个 数值 进行 数据 解压 缩 ， 读 取 第 1 组 的 
跳跃 指针 数据 ， 发 现 其 值 为 <5,Pos1>， 其 中 Pos1 指 出 了 第 2 组 的 跳跃 指 
针 在 倒 排列 表 中 的 起 始 位 置 ， 于 是 可 以 解压 缩 Pos1 位 置 处 连续 两 个 数 
值 ， 得 到 <13,Pos2>。 跳 跃 指针 的 数值 5 和 数值 13， 分 别 表 示 两 组 数据 中 
最 小 编号 文档 的 文档 ID， 我 们 要 查找 的 7 号 文档 落 在 两 者 之 间 ， 说 明 如 
果 7 号 文档 包含 在 单词 “<Google” 的 倒 排列 表 中 的 话 ， 一 定 会 在 第 1 组 中 ， 
否则 说 明 倒 排列 表 中 不 包含 这 个 文档 。 于 是 可 以 依次 对 第 1 组 中 的 数据 
进行 解压 缩 ， 并 根据 最 小 文档 编号 逆 癌 恢复 其 原始 的 文档 编号 ， 当 读 到 
<2,1> 的 时 候 ， 可 以 知道 这 个 文档 对 应 的 原始 文档 ID 为 : 5 十 2 二 7， 与 我 
们 正在 查找 的 文档 编号 相同 ， 说 明 7 号 文档 在 单词 “<Google” 的 倒 排列 表 
中 ， 于 是 可 以 结束 这 次 查找 。 而 求 两 个 查询 词 的 倒 排 列表 交集 就 是 反复 
在 两 个 倒 排 列表 中 查找 某 个 文档 是 否 存在 ， 将 同时 在 两 个 倒 排 列表 中 出 
现 的 文档 ID 作为 计算 结 

从 上 面 的 查找 过 程 可 以 看 出 ， 相 对 不 包含 跳跃 指针 的 索引 来 说 ， 我 
们 只 需要 对 其 中 一 个 数据 块 进行 解压 缩 和 文档 编号 查找 即 可 获得 结果 ， 
不 用 将 所 有 索引 数据 都 进行 解压 缩 和 比较 操作 ， 很 明显 这 将 加 快 查找 速 
度 ， 并 节省 内 存 空间 。 

上 面 例子 设 定 分 组 大 小 为 3， 而 在 实际 应 用 中 ， 如 何 设 定数 据 块 或 





























者 数据 组 的 大 小 对 于 效率 有 影响 。 数 据 块 越 小 ， 则 使 用 跳跃 指针 问 后 进 
行 跳跃 的 可 能 性 越 大 ， 但 是 缺点 是 增加 了 指针 比较 操作 的 次 数 ;， 数据 块 
越 大 ， 则 可 以 有 效 减 少 指针 比较 次 数 ， 但 是 使 用 跳跃 指针 向 后 跳跃 的 可 
能 性 越 小 。 所 以 需要 根据 数据 情况 对 块 大 小 进行 合理 设置 才能 取得 最 优 
结果 。 实 践 表明 一 个 简单 有 效 的 局 发 规则 是 : 假设 倒 排 列表 长 度 为 
L《〈 即 包含 L 个 文档 ID) ， 使 用 L 作 为 其 大 小 ， 则 效果 较 好 。 


3.8 ”多 字段 索引 


在 很 多 实际 的 搜索 应 用 领域 ， 搜 索引 擎 所 要 处 理 的 文档 是 有 一 定 结 
构 的 ， 即 文档 包含 明确 区 分 的 多 个 字段 。 比 如 电子 邮件 ， 包 含 “ 发 件 
人 ”“ 收 件 人 ”“ 标 题 ? 和 * 正 文 ? 几 个 重要 字段 。 再 比如 论文 搜索 引擎 ， 
论文 是 有 规范 格式 的 ， 包 合 “ 标 题 * “作者 ”“ 摘 要 ”“ 正 文 ”、“ 参 考 文 
献 ? 等 几 个 字段 。 对 于 这 种 多 字段 类 型 文档 ， 搜 索引 擎 应 该 能 够 文 持 用 
户 指 定 某 个 字段 作为 搜索 范围 ， 比 如 邮件 搜索 应 用 应 该 允许 用 户 在 标题 
里 搜索 某 个 关键 词 是 否 出 现 。 

即使 是 对 互联 网 网 页 ， 也 可 以 切割 为 不 同 的 字段 ， 搜 索 关 键 词 出 现 
在 不 同 字 段 里 代表 的 权重 是 不 同 的 。 如 果 搜 索 关 键 词 出 现在 标题 ， 很 明 
显 这 个 网 页 的 相关 性 会 高 于 只 在 正文 中 出 现 关 键 词 的 网 页 。 所 以 区 分 不 
同 字段 对 于 搜索 引擎 的 相关 性 评分 也 有 很 大 帮助 。 

为 了 能 够 支持 以 上 的 需求 ， 搜 索引 苟 需 要 能 够 对 多 字段 进行 索引 ， 
De ere are er Pere ican ore OE ena 
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3.8.1 多 索引 方式 


多 索引 方式 针对 每 个 不 同 的 字段 ， 分 别 建 立 一 个 索引 ， 当 用 户 指 定 
东 个 字段 作为 搜索 范围 时 ， 可 以 从 相应 的 索引 里 提取 结果 。 图 3-25 是 这 
种 方式 的 示意 图 。 我 们 假设 要 处 理 的 文档 分 为 “标题 "、“ 摘 要 ”和 “正文 ”3 
个 字段 ， 本 市 后 续 的 例子 也 是 以 这 种 类 型 的 文档 来 做 说 明 的 。 






































HME ti 
图 3-25 ”多 索引 方式 


当 用 户 没 有 指定 特定 字段 时 ， 搜 索引 擎 会 对 所 有 字段 都 进行 查找 并 
合并 多 个 字段 的 相关 性 得 分 ， 对 于 多 索引 方式 来 次 ， 如 需要 对 多 个 索引 
进行 读 取 ， 所 以 这 种 方式 的 效率 会 比较 低 。 


3.8.2” 倒 排列 表 方 式 


为 了 能 够 支持 对 指定 字段 的 搜索 ， 也 可 以 将 字段 信息 存储 在 某 个 关 
键 词 对 应 的 倒 排列 表 内 ， 在 倒 排列 表 中 每 个 文档 索引 项 信息 的 末尾 追加 
字段 信息 ， 这 样 在 读 出 用 户 查 询 关键 词 的 倒 排列 表 的 同时 ， 就 可 以 根据 
字段 信息 ， 判 断 这 个 关键 词 是 否 在 某 个 字段 出 现 ， 以 此 来 进行 过 滤 ， 并 
保留 指定 字段 内 出 现 过 搜索 词 的 文档 作为 搜索 结果 返回 。 

图 3-26 是 一 个 具体 的 示例 。 上 面 提 到 ， 我 们 要 处 理 的 文档 包含 了 3 
个 字段 ， 所 以 可 以 用 3 个 比特 位 Bid 来 分 别 表示 关键 词 是 否 在 某 个 字 
段 出 现 过 ， 每 个 比特 位 对 应 一 个 字段 。 如 果 关 键 词 在 某 个 字段 出 现 过 ， 
则 相应 的 比特 位 设 定 为 1， 否 则 设 定 为 0。 我 们 假设 3 个 比特 位 从 左 到 右 
依次 分 别 对 应 “标题 ">、“ 摘 要 ”和 “正文 ”这 种 顺序 ， 如 果 比 特 位 的 值 
为 “101”， 则 代表 某 个 关键 词 在 “标题 ?和 “正文 ”中 出 现 过 ， 但 是 没有 
在 “摘要 ”中 出 现 。 






































搜索 引擎 一 一 [3:3:"101"] | [4:5:"111"] 


a | 








3-26 ” 倒 排 列表 方式 


如 图 3-26 所 示 的 例子 显示 了 “搜索 引擎 ”这 个 关键 词 对 应 的 倒 排 列 
表 ， 从 中 可 以 看 出 ， 有 3 个 文档 包含 关键 词 “搜索 引擎 ”"”， 它 们 对 应 的 文 
档 编 号 为 1、3 和 4， 紧 跟 在 文档 编号 之 后 的 是 单词 频率 信息 ， 末 尾 则 是 
字段 信息 。 我 们 以 文档 1 存储 的 信息 为 例 ， 文 档 1 的 单词 频率 为 2， 相 应 
的 字段 标记 为 "001”， 说 明文 档 1 只 在 “正文 ?中 出 现 过 “搜索 引擎 "这 个 天 
键 词 。 其 他 的 文档 所 存储 的 信息 含义 与 此 类 似 。 

当 用 户 指定 在 文档 标题 中 搜索 “搜索 引擎 "这 个 得 询 词 的 时 候 ， 根 据 
倒 排列 表 中 的 字段 信息 可 以 看 出 ， 文 档 3 和 文档 5 满足 条 件 ， 于 是 输出 这 
两 个 文档 作为 搜索 结果 。 


3.8.3 ”扩展 列表 方式 (Extent List) 


扩展 列表 是 实际 中 应 用 得 比较 多 的 文 持 多 字段 索引 的 方法 。 这 个 方 
法 为 每 个 字段 建立 一 个 列表 ， 这 个 列表 记载 了 每 个 文档 这 个 字段 对 应 的 
出 现 位 置信 息 。 

图 3-27 是 扩展 列表 的 示意 图 ， 为 了 简便 ， 图 中 只 展示 了 针对 “ 标 
题字 段 所 建立 的 扩展 列表 ， 其 他 字段 的 扩展 列表 与 此 类 似 。 在 标题 扩 
展 列表 中 ， 记 载 了 所 有 文档 的 标题 位 置信 息 ， 比 如 第 1 项 存储 的 信息 为 
<1,(1,4)>， 代 表 对 于 文档 1 来 说 ， 其 标题 的 位 置 为 从 第 1 个 单词 到 第 4 个 
单词 这 个 范围 ， 扩 展 列表 内 其 他 项 含义 类 似 。 
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1:2:<6,10> | [3:3:<2,8,15> 4:5:<3,5,9,12,17> 
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图 3-27 扩展 列表 方式 
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表 可 以 知道 文档 1、 文 档 3 和 文档 4 包含 这 个 查询 词 ， 接 下 来 需要 判断 : 
这 些 文档 是 否 在 标题 中 出 现 过 查询 词 ? 对 于 文档 1 来 说 , “搜索 引擎 ”这 
个 查询 词 的 出 现 位 置 是 第 6 和 第 10 这 两 个 位 置 ， 而 通过 对 应 的 标题 扩展 
列表 可 知 ， 文 档 1 的 标题 范围 是 位 置 1 到 位 置 4， 这 说 明文 档 1 的 标题 内 不 
包含 查询 词 ， 即 文档 1 不 满足 要 求 。 对 于 文档 3 来 说 , “搜索 引擎 ”在 文档 
中 的 出 现 位 置 是 2、8 和 15， 而 对 应 的 标题 扩展 列表 中 ， 标 题 出 现 范围 为 
位 置 1 到 位 置 3， 说 明 在 位 置 2 出 现 的 这 个 查询 词 是 在 标题 范围 内 的 ， 即 
满足 要 求 ， 可 以 作为 搜索 结果 输出 。 文 档 4 也 类 似 ， 是 满足 搜索 条 件 的 
文档 ， 于 是 可 以 输出 文档 3 和 文档 4 作为 搜索 结果 。 


3.9 ”短语 查询 


























短语 是 很 常见 的 语言 现象 ， 几 个 经 常 连 在 一 起 被 使 用 的 单词 就 构成 
了 短语 ， 比 如 “你 懂 的 ?>。 短 语 强调 单词 之 间 的 顺序 ， 有 时 尽管 是 同样 的 
Hua], JU UB ere see BAIN, CORO Te PR Pa Tes 
义 相差 甚 远 。 

搜索 引擎 如 何 能 够 支持 短语 呢 ? 如 果 单 词 的 倒 排 列表 只 存储 文档 编 
号 和 单词 频率 信息 ， 其 保留 的 信息 是 不 足以 文 持 短语 搜索 的 ， 因 为 单词 
之 间 的 顺序 关系 没有 保留 。 搜 索引 擎 文 持 短语 查询 ， 本 质问 题 是 如 何在 
索引 中 维护 单词 之 间 的 顺序 关系 或 者 位 置信 息 。 较 常见 的 文 持 短 语 查 询 
的 技术 方法 包括 : 位 置信 息 索 引 、 双 词 索引 及 短语 索引 这 3 类 ， 为 了 能 
够 更 有 效 地 利用 存储 和 计算 资源 ， 也 可 以 将 三 者 结合 使 用 。 


























3.9.1 位 置信 息 索 引 (Position Index) 








由 前 面 的 章节 我 们 知道 ， 对 于 词典 中 某 个 单词 的 倒 排列 表 ， 往 往 存 
储 3 种 信息 : 文档 ID、 单 词 频率 和 单词 位 置信 息 。 一 般 情 况 下 不 存储 单 
词 位 置信 息 ， 因 为 这 种 信息 数量 过 大 ， 一 旦 加 入 位 置信 息 ， 单 词 的 倒 排 
列表 长 度 会 剧烈 增长 ， 这 样 一 方面 消耗 存储 空间 ， 男 一 方面 影响 磁盘 读 
取 效 紊 ， 对 快速 啊 应 用 户 查 询 不利 。 但 是 如 果 索 引 记 载 单词 位 置信 息 ， 
则 能 很 方便 地 支持 短语 查询 。 

假设 用 户 输 入 短语 三 询 “ 爱 情 买 卖 "， 图 3-28 说 明了 位 置 索 引 是 如 何 
文 持 短语 但 询 的 ， 在 单词 倒 排 列表 中 存储 了 文档 ID、 单 词 频率 及 位 置信 
恩 ， 比 如 <5,2,[3,7]> 索 引 项 的 含义 是 : 5 号 文档 包含 “爱情 ”这 个 单词 ， 且 
这 个 单词 在 文档 中 出 现 2 次 ， 其 对 应 的 位 置 为 3 和 7， 其 他 倒 排 列表 项 的 





























含义 与 此 相同 。 


爱情 - 5 <5,2 , [3,7]> || <7,3 , [2,8,10]> {| <9,2 , [1,5]> | 
\ 
\ 
X | 

买卖 | <5,1,[4]> | <6,2,[4,6]> | <9,3,13.9.151> | 


图 3-28 位置 信息 索 引 


搜索 引擎 获得 了 用 户 碍 询 后 ， 从 磁盘 分 别 读 入 两 个 单词 的 倒 排列 
表 ， 通 过 倒 排 列表 记载 的 信息 可 知 ， 文 档 5 和 文档 9 同时 包含 两 个 查询 
词 ， 为 了 判断 在 这 两 个 文档 中 ， 用 户 查 询 是 否 以 短语 的 形式 存在 ， 还 要 
判断 位 置信 息 。“ 爱 情 ” 这 个 单词 在 5 和 写 文 档 的 出 现 位 置 是 3 和 7， 而 “ 买 
卖 ” 在 5 号 文档 的 出 现 位 置 是 4， 可 以 看 出 5 写 文 档 的 位 置 3 和 位 置 4 分 别 对 
应 单词 “爱情 ”和 “买卖 "， 即 两 者 是 一 个 短语 形式 ， 而 对 于 9 写 文 档 ， 做 
同样 的 分 析 后 可 知 ， 这 两 个 查询 词 并 没有 连续 在 文档 中 出 现 ， 所 以 搜索 
引擎 会 将 5 号 文档 作为 搜索 结果 人 返回 ， 这 样 就 通过 位 置信 息 完 成 了 对 短 
lia 对 于 超过 两 个 查询 词 的 短语 ， 也 可 用 类 似 的 方式 得 到 结 












































尽管 位 置 款 引 可 以 文 持 短语 查询 ， 但 是 对 于 有 些 碍 询 ， 其 付出 的 存 
储 和 计算 代价 很 品 ， 读 者 可 以 思考 一 下 “我 的 团 长 我 的 团 ” 这 种 短语 查询 
的 存储 和 计算 代价 。 


3.9.2” 双 词 索 引 (Nextword Index) 





双 词 索引 是 另外 一 种 可 以 对 短语 查询 提供 文 持 的 索引 结构 。 短 语 至 
少 包 含 两 个 单词 ， 也 可 能 包含 多 个 单词 ， 统 计数 据 表明 ， 二 词 短 语 在 短 
语 中 所 占 比 例 最 大 ， 所 以 如 果 能 够 针对 二 词 短语 提供 快速 查询 ， 也 能 解 
决 短语 查询 的 问题 。 

对 于 两 个 单词 构成 的 短语 来 说 ， 一 般 称 第 1 个 单词 为 “ 肖 词 "， 第 2 个 
单词 为 “下 词 ?”。 图 3-29 是 双 词 索引 的 数据 结构 ， 在 内 存 中 包含 两 个 词 
典 ， 分 别 是 “ 首 词 * 词 典 和 “下 词 ” 词 典 ,“ 首 词 * 词 典 有 指针 指向 “下 词 * 词 
典 茶 个 位 置 , “下 词 ? 词 典 存 储 了 紧 跟 在 “ 首 词 ? 词 典 后 的 常用 短语 的 第 2 
个 单词 ,，“ 下 词 * 词 典 的 指针 指向 包含 这 个 短语 的 倒 排 列表 。 比 如 对 
于 “我 的 ”这 个 短语 ， 其 倒 排 列表 包含 文档 5 和 文档 7， 对 于 “的 父亲 ”这 个 
短语 ， 其 倒 排 列表 包含 文档 5， 词 典 中 其 他 词典 项 也 是 类 似 的 含义 。 




















> <5,2 , [3,7]> <7,3 , [2,8,10]> 


«------ 


> <5,2 , [4,9]> 


> <6,2,[4,6]> <9,3,[3,9,15] > 





图 3-29 双 词 索引 


假设 用 户 输入 短语 得 询 “ 我 的 父亲 ”， 搜 索引 擎 首先 将 其 拆 分 成 两 个 
短语 “我 的 ”和 "的 父亲 ”， 然 后 分 别 查 找 词典 信息 ， 发 现 包 含 “ 我 的 "> 这 个 
短语 的 是 文档 5 和 文档 7， 而 包含 “的 父亲 ”这 个 短语 的 有 文档 5。 碍 看 其 
对 应 的 出 现 位 置 ， 可 以 知道 文档 5 是 符合 条 件 的 搜索 结果 。 这 样 就 完成 
了 对 短语 查询 的 文 持 。 

双 词 索引 同样 使 得 索引 急剧 增 大 ， 原 先 的 索引 结构 中 ， 词 典 是 一 维 
的 ， 而 双 词 索引 词典 结构 是 二 维 的 ， 这 样 倒 排 列表 个 数 会 友 生 爆炸 性 增 
长 ， 所 以 一 般 实 现时 并 非 对 所 有 单词 都 建立 双 词 索引 ， 而 是 只 对 计算 代 
价 高 的 短语 建立 双 词 索引 ， 比 如 包含 “我 人“ 的 ”等 停 用 词 的 短语 ， 这 些 
短语 如 果 用 常规 方法 处 理 的 话 ， 存 储 和 计算 代价 太 高 ， 采 用 双 词 索引 可 
以 极 大 地 缓解 这 种 状况 ， 对 于 一 般 的 短语 ， 可 以 使 用 位 置信 息 等 常规 手 
段 来 达到 目的 。 
































3.9.3 ”短语 索引 (Phrase Index) 


位 置 索引 和 双 词 索引 可 以 有 效 文 持 短 语 得 询 ， 但 其 实 还 有 一 种 更 直 
观 的 方法 来 解决 这 个 问题 ， 那 就 是 直接 在 索引 中 加 入 短语 索引 。 之 前 介 
绍 的 常规 索引 结构 中 ， 词 典 都 是 以 单词 作为 查询 和 存储 单位 的 ， 如 果 将 
其 扩展 ， 在 词典 中 直接 加 入 多 词 短语 并 维护 短语 的 倒 排 列表 ， 这 样 也 可 
以 对 短语 进行 支持 。 

短语 索引 有 目 己 的 缺点 : 不 可 能 事先 将 所 有 短语 都 建 好 索引 。 通 用 























的 做 法 是 挖掘 出 热门 短语 ， 为 这 些 短语 专门 建立 索引 ， 对 于 其 他 的 短语 
查询 ， 则 采用 第 规 方 法 处 理 。 挖 掘 短语 的 数据 来 源 可 以 是 多 样 化 的 ， 比 
如 可 以 从 用 户 查 询 日 志 〈Search Log) 挖掘 或 者 从 文本 本 身 挖掘 。 

图 3-30 是 加 入 短语 索引 后 的 整体 索引 结构 ， 当 搜索 引擎 接收 到 用 户 
查询 后 ， 首 先 在 短语 索引 里 查找 ， 如 果 找 到 ， 则 计算 后 返回 给 用 户 搜索 
结 末 ， 人 否则 仍然 利用 第 规 索 引进 行 得 询 处 理 。 








用 户 查询 





3.9.4 混合 方法 


从 上 述 介绍 可 以 看 出 ， 不 同 的 短语 索引 结构 有 其 各 自 的 特点 ， 位 置 
索引 适合 处 理 常 规 的 短语 查询 ， 即 计算 代价 较 小 的 短语 ， 双 词 索引 适合 
处 理 计算 代价 较 高 的 短语 查询 ， 而 短语 索引 则 适合 处 理 热门 短语 查询 或 
者 文本 中 高 频 度 出 现 的 短语 ， 此 三 者 是 以 互补 关系 存在 的 ， 如 果 能 够 在 
构建 系统 时 有 机 集成 三 者 ， 就 能 使 系统 效率 发 挥 出 综合 优势 。 

图 3-31 是 同时 利用 以 上 3 种 方式 的 混合 索引 结构 ， 短 语 索 引用 来 对 
热门 短语 和 高 频 短 语 进行 索引 ， 双 词 索 引 对 包含 停 用 词 等 高 代价 短语 进 
行 索引 。 接 收 到 用 户 查 询 后 ， 系 统 首 先 在 短语 索引 中 得 找 ， 如 果 找 到 则 
返回 结果 ， 人 否则 到 双 词 索引 中 查找， 如 果 找 到 则 返回 结果 ， 人 否则 从 第 规 
索引 中 对 短语 进行 处 理 ， 这 样 可 以 充分 发 挥 各 目的 优势 。 
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moa. RARI 
3.10 SAARI] (Parallel Indexing) 


当 搜 索引 擎 需要 处 理 的 文档 集合 数量 非常 庞大 时 ， 靠 单机 往往 难以 
承担 如 此 重任 ， 此 时 需要 考虑 分 布 式 解决 方案 ， 即 每 台 机 器 维护 整个 索 
引 的 一 部 分 ， 由 多 台 机 器 协作 来 完成 索引 的 建立 和 对 查询 的 啊 应 。 至 于 
多 台 机 器 如 何 分 工 协 作 ， 目 前 常用 的 分 布 式 索引 方案 包括 两 种 : 按 文档 
对 索引 划分 和 按 单词 对 索引 划分 。 





3.10.1 ZXR] (Document Partitioning ) 


所 谓 的 按 文档 对 索引 划分 ， 就 是 将 整个 文档 集合 切割 成 若干 子 集 
合 ， 而 每 台 机 器 负责 对 某 个 文档 子 集合 建立 索引 ， 并 啊 应 查询 请 求 。 图 
3-32 是 该 方式 的 一 个 示意 图 ， 假 设 文 档 集合 包含 5 个 文档 ， 将 其 切割 成 
两 个 子 集合 ， 分 别 交 由 两 台 机 器 建 并 索引 。 





图 3-32 ” 按 文档 划分 


如 图 3-33 所 示 为 此 分 布 式 索 引 方案 对 用 户 查 询 的 响应 过 程 。 查 询 分 
发 服务 器 接收 到 用 户 查 询 请 求 后 ， 将 但 询 广 播 给 所 有 索引 服务 器 。 每 个 
索引 服务 器 负责 部 分 文档 子 集 合 的 索引 维护 和 查询 响应 ， 当 索引 服务 器 
接收 到 用 户 查 询 后 ， 按 照 本 章 前 述 小 节 所 述 计算 相关 文档 ， 并 将 得 分 最 
高 的 K 个 文档 送 返 查询 分 发 服务 器 。 查 询 分 发 服务 器 综合 各 个 索引 服务 
器 的 搜索 结果 后 ， 合 并 搜索 结果 ， 将 得 分 最 高 的 m 个 文档 作为 最 终 搜索 
结果 返回 给 用 户 ， 这 样 就 完成 了 对 一 次 用 户 查 询 的 响应 。 

















图 3-33 ”文档 划分 方式 对 用 户 查 询 的 响应 


3.10.2” 按 单词 划分 (Term Partitioning) 


按 单词 划分 索引 方式 与 上 述 按 文 档 划 分 索引 方式 不 同 ， 不 是 对 文档 
集合 进行 切割 ， 而 是 对 单词 词典 进行 划分 ， 每 个 索引 服务 器 负责 词典 中 
部 分 单词 的 倒 排列 表 的 建立 和 维护 ， 图 3-34 是 这 种 分 布 式 索引 方案 的 示 
意图 。 假 设 单词 词典 包含 了 6 个 单词 ， 这 种 方式 将 每 3 个 单词 的 倒 排列 表 
存储 在 一 台 索 引 服 务 器 上 ， 以 此 协作 方式 来 完成 整个 索引 系统 。 











索引 服务 器 


图 3-34 ” 按 单 词 划 分 


按照 单词 对 索引 进行 划分 的 分 布 式 方案 中 ， 如 何 啊 应 用 户 查 询 ? 图 
3-35 是 这 种 方案 响应 用 户 查 询 请 求 的 示意 图 ， 值 得 注意 的 是 ， 在 图 中 所 
示 体 系 结 构 下 ， 搜 索 系 统 的 查询 处 理 方式 只 能 是 一 次 一 单词 的 方式 〈 细 
节 参 见 3.7 节 内 容 ) 。 

















查询 请 求 


(eral, Tem2, Tern3) 






家 引 服 务 器 节点 2(Term2 


索引 服务 器 节点 3(Term3) 
图 3-35 单词 倒 排列 表 分 布 情况 查询 处 理 


在 图 示例 子 中 ， 假 设 用 户 输 入 的 查询 包含 3 个 单词 Term1、Term2 和 
Term3， 碍 询 分 发 服务 器 接收 到 用 户 查 询 后 ， 将 查询 转发 给 包含 单词 
Term1 倒 排列 表 的 索引 服务 器 节点 1， 索 引 服务 器 节点 1 提取 Term1 的 倒 
排列 表 ， 并 累计 计算 搜索 结果 的 中 间 得 分 ， 然 后 将 查询 和 中 间 结 果 传 递 
给 包含 单词 Term2 倒 排列 表 的 索引 服务 器 节点 ， 索 引 服务 喜 节 点 2 也 是 类 
似 处 理 ， 并 继续 传递 到 索引 服务 器 节点 3。 索 引 服务 器 节点 3 处 理 完 成 
后 ， 将 最 终结 果 返 回 给 查询 分 发 服务 器 ， 查 询 分 发 服务 器 计算 得 分 最 高 
e a 很 明显 ， 这 是 典型 的 一 次 一 单词 的 查询 
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3.10.3 ”两 种 方案 的 比较 
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用 的 ， 而 按 单词 进行 索引 划分 只 在 比较 特殊 的 应 用 场合 才 使 用 。 之 所 以 
如 此 ， 是 因为 按 单 词 进行 索引 划分 在 以 下 几 个 方面 存在 不 足 。 


可 扩展 性 


搜索 引擎 处 理 的 文档 集合 往往 是 在 不 断 变动 的 ， 如 果 是 按 文档 来 对 
索引 划分 ， 则 很 容易 支持 新 增 的 文档 ， 只 要 增加 索引 服务 器 ， 将 新 增 的 
文档 由 新 增 索 引 服 务 器 来 负责 处 理 即 可 ， 对 系统 其 他 部 分 影响 很 小 ， 在 
实现 上 也 非常 方便 。 但 是 如 果 是 按 单 词 进 行 索 引 划 分 ， 则 对 几乎 所 有 的 
索引 服务 器 都 有 直接 影响 ， 因 为 新 增 文档 可 能 包含 所 有 词典 单词 ， 即 需 
要 对 每 个 单词 的 倒 排 列表 进行 更 新 ， 实 现 起 来 相对 复杂 。 


负载 均衡 


按 单词 进行 索引 划分 在 索引 服务 器 的 负载 均衡 方面 做 得 也 不 是 很 
好 。 有 些 单词 比较 常见 ， 几 乎 出 现在 所 有 文档 中 ， 比 如 一 些 常用 词 ， 这 
些 单词 的 倒 排 列表 会 非常 庞大 ， 可 能 会 达到 几 十 兆 字 节 。 如 果 是 按 文档 
进行 索引 划分 ， 这 种 单词 的 倒 排 列表 会 比较 均匀 地 分 布 在 不 同 的 索引 服 
务 器 上 ， 而 按 单词 进行 索引 划分 ， 某 个 常见 单词 的 倒 排 列表 全 部 内 容 都 
由 一 台 索 引 服 务 器 维护 ， 如 果 这 个 单词 同时 又 是 一 个 流行 词汇 ， 会 有 很 
人 
能 瓶颈 。 


容错 性 


假设 在 分 布 式 索引 系统 里 ， 某 合 索引 服务 器 发 生 故 障 ， 对 于 按 文 档 
进行 索引 划分 的 方案 来 说 ， 因 为 这 只 影 啊 到 部 分 文档 子 集合 ， 即 使 荣 合 
索引 服务 器 不 能 啊 应 查询 ， 其 他 索引 服务 器 仍然 能 够 啊 应 ， 对 于 用 户 来 
说 ， 并 不 会 直接 感受 到 这 种 故障 的 影响 。 但 是 对 于 按 单 词 进行 索引 划分 
的 情况 ， 知 索引 服务 器 发 生 故 障 ， 则 茶 坚 单词 的 倒 排 列表 无 法 访问 ， 用 
户 查 询 这 些 单词 的 时 候 ， 会 发 现 没 有 搜索 结果 ， 这 直接 影响 用 户 体 验 。 


对 查询 处 理 方式 的 文 持 


如 上 节 所 述 ， 按 单词 进行 索引 划分 只 能 文 持 一 次 一 单词 这 种 碍 询 处 
理 方 式 ， 而 按 文 档 进行 索引 划分 则 不 受 此 限制 ， 可 以 同时 文 持 两 种 不 同 





























的 查询 处 理 方式 。 对 于 某 些 类 型 的 搜索 来 说 ， 需 要 一 次 一 文档 这 种 查询 
处 理 方式 支持 ， 否 则 在 机 制 上 就 无 法 实现 。 按 文档 进行 索引 划分 可 以 根 
据 具 体 情况 选择 不 同 的 查询 处 理 方式 ， 而 按 单 词 进行 索引 划分 则 没有 这 
种 灵活 性 。 
本 章 提要 

倒 排 索引 是 搜索 引擎 用 来 快速 查找 包含 某 个 单词 的 文档 集合 的 
数据 结构 。 

倒 排 索引 由 单词 词典 和 所 有 单词 对 应 的 倒 排 列表 构成 。 

倒 排列 表 由 倒 排列 表 项 构成 ， 一 般 倒 排 列表 项 包含 文档 ID、 单 
a E 
式 编 码 。 

0 E 
归并 法 。 














常用 的 索引 更 新 策略 有 4 种 : 完全 重建 策 略 、 再 合并 束 略 、 原 地 
更 新 集 略 及 混合 集 略 。 

目前 有 两 种 常见 的 僵 询 处 理 机 制 ， 一 种 被 称 做 一 次 一 文档 方 
式 ， 男 一 种 被 称 为 一 次 一 单词 方式 。 

实现 多 字段 索引 有 3 种 方式 : 多 索引 方式 、 倒 排列 表 方 式 和 扩展 
列表 方式 。 

较 常 见 的 支持 短语 但 询 的 拉 术 方法 包括 : MERERI Mi 
索引 及 短语 索引 这 3 类 ， 为 了 能 够 更 有 效 地 利用 存储 和 计算 资源 ， 也 可 
以 将 三 者 结合 使 用 。 

目前 常用 的 分 布 式 之 引 方案 包括 两 种 : 按 文档 对 索引 划分 和 按 

单词 对 索引 划分 。 
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第 4 章 ”索引 压缩 
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对 于 海量 网 页 数据 ， 为 其 建立 倒 排 索引 往往 需要 耗费 较 大 的 磁盘 空 
间 ， 无 其 是 一 些 比较 第 见 的 单词 ， 其 对 应 的 倒 排 列表 可 能 大 小 有 几 百 
兆 。 如 果 搜 索引 苟 在 啊 应 用 户 但 询 的 时 候 ， 用 户 查 询 中 包含 常见 词汇 ， 
就 需要 将 大 量 的 倒 排列 表 信 息 从 磁盘 读 入 内 存 ， 之 后 进行 查询 处 理 给 出 
搜索 结果 。 由 于 磁盘 读 / 写 速 度 往往 是 个 瓶颈 ， 所 以 包含 常用 词 的 用 户 
查询 ， 其 啊 应 速度 会 受到 严重 影响 。 索 引 压 缩 则 可 以 利用 数据 压缩 算 
法 ， 有 效 地 将 数据 量 减少 ， 这 样 一 方面 可 以 减少 索引 占用 的 磁盘 空间 资 
源 ， 男 一 方面 可 以 减少 磁盘 读 / 与 数据 量 ， 加 快 用 户 碍 询 的 啊 应 速度 。 

倒 排 索引 主要 包含 两 个 构成 部 分 :单词 词典 和 单词 对 应 的 倒 排 列 
表 。 上 所 以 针对 索引 的 压缩 算法 ， 也 分 为 针对 词典 的 压缩 和 针对 倒 排列 表 
的 压缩 。 而 对 倒 排列 表 压 缩 又 可 以 细 分 为 无 损 压 绑 和 有 损 压 缩 两 种 。 所 
谓 无 损 压 缩 ， 就 是 将 原始 倒 排列 表 数 据 量 减 小 ， 但 是 信息 并 不 会 因为 占 
用 空间 的 减 小 而 有 所 损失 ， 通 过 解压 缩 算 法 可 以 完全 恢复 原始 信息 。 而 
0 




















本 章 主 要 介绍 针对 搜索 引擎 索引 的 压缩 算法 ， 首 先 介绍 针对 词典 的 
相关 压缩 技术 ， 第 4.2 节 会 介绍 针对 倒 排列 表 的 经 典 压缩 算法 ， 之 后 是 
对 文档 ID 重 排序 技术 的 说 明 ， 这 是 力 一 种 形式 的 无 损 压 缩 思 路。 最 后 一 
节 简 单 介绍 静态 索引 裁剪 这 一 有 损 压 缩 算法 。 


4.1 词典 压缩 


为 了 快速 啊 应 用 户 碍 询 ， 词 典 数据 往往 会 全 部 加 载 到 内 存 中 ， 以 加 
快 得 找 速 度 。 如 果 文 档 集 合 数据 量 很 大 ， 包 含 的 不 同 单词 数目 会 非 闻 











多 ， 内 存 是 人 否 能 够 放 得 下 全 部 词典 信息 就 成 了 问题 。 为 了 减 小 词典 信息 
所 占 内 存 ， 一 般 可 考虑 采用 词典 压缩 技术 来 达到 此 目的 。 

上 一 章 介 绍 了 词典 的 组 织 方 式 有 两 种 : 哈 希 加 链表 和 B 树 形 词典 结 
构 。 在 链表 内 部 或 者 B 树 的 叶子 市 把 会 存储 单词 相关 信息 ， 一 般 至 少 会 
存储 以 下 3 项 :单词 本 身 内 容 ， 文 档 频 率 信息 DF》 及 指向 倒 排 列表 的 
旨 针 信息 。 图 4-1 是 词典 结构 和 信息 的 示意 图 。 
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图 4-1 词典 信息 


对 于 茶 个 词典 项 来 说 ， 文 档 频率 信息 和 倒 排 列表 指针 信息 各 目 使 用 
4 个 字 节 表示 即 可 ， 而 单词 本 映 内 容 可 长 可 短 ， 长 的 单词 比如 “中 华人 民 
共和 国 "， 短 的 单词 比如 “我 "， 长 度 差 异 很 大 。 为 了 能 够 容纳 最 长 的 单 
词 ， 需 要 给 单词 内 容 分 配 足 够 大 的 空间 ， 我 们 假设 词典 中 最 长 单词 是 10 
个 汉字 ， 即 每 个 单词 内 容 需 要 分 配 20 个 字 节 ， 即 使 是 像 “ 我 这 种 单字 
词 ， 也 会 占用 20 个 字 节 的 位 置 ， 浪 费 严 重 ， 很 明显 这 里 可 以 采取 一 些 优 
化 的 数据 结构 来 省 出 存储 空间 。 

图 4-2 是 针对 单词 内 容 存储 结构 的 一 种 优化 措施 ， 在 这 个 技术 方案 
里 ， 可 以 将 单词 连续 存储 在 茶 个 内 存 区 域 ， 原 先 存储 单词 内容 的 部 分 由 
指 癌 这 个 存储 区 对 应 单词 起 始 位 置 的 指针 代 丛 ， 单 词 结尾 可 以 用 词典 中 
下 一 个 单词 的 指针 所 指 癌 位 置 来 做 判断 ， 如 此 就 可 以 将 原先 浪费 的 存储 
空间 利用 起 来 。 
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图 4-2 ”优化 的 词典 结构 


在 上 述 优 化 词典 结构 的 基础 上 ， 还 可 以 继续 做 出 改进 ， 图 4-3 是 进 
一 步 改进 方案 的 示意 图 。 其 基本 思想 是 ， 将 连续 词典 进行 分 块 ， 图 中 的 
例子 是 将 每 两 个 单词 作为 一 个 分 块 ， 在 实际 开发 时 ， 可 动态 调整 分 块 大 
小 ， 以 获取 最 优 压缩 效果 。 原 先 每 个 词典 项 需要 保留 一 个 指向 连续 词典 
区 的 指针 ， 而 分 块 之 后 ， 相 邻 的 两 个 词典 项 可 以 共享 同一 个 指针 ， 这 样 
每 两 个 词典 项 就 节省 出 了 一 个 4 字 节 长 的 指针 信息 ， 因 为 此 时 连续 词典 
分 块 内 包含 多 个 单词 ， 为 了 能 够 标 出 其 分 隔 位 置 ， 需 要 为 每 个 单词 增加 
单词 长 度 信息 ， 这 样 就 可 以 在 提取 单词 时 对 块 内 的 不 同 单词 予以 正确 区 
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图 4-3 ”进一步 优化 的 词典 结构 


实验 表明 ， 经 过 上 述 优化 的 词典 比 不 做 优化 的 词典 占用 内 存 数量 减 
少 了 60%， 可 见 这 些 优化 措施 还 是 非常 有 效 的 手段 。 


4.2 (EAE Ze i YE 


单词 对 应 的 倒 排 列表 一 般 记 载 3 类 信息 : 文档 编号 、 词 频 信息 及 单 
词 位 置 序列 信息 。 因 为 文档 编号 及 单词 位 置 序列 是 依次 递增 的 ， 所 以 通 
常 的 做 法 是 存储 其 差 值 ， 而 非 原 始 数据 。 经 过 兰 值 转换 ， 文 档 编号 和 单 
词 位 置信 息 往 往 会 被 转换 成 大 量 的 小 整数 ， 而 词 频 信 息 大 部 分 是 小 整 
数 ， 因 为 一 个 单词 在 正文 中 出 现 的 频率 通常 都 不 高 。 压 缩 算 法 的 处 理 对 
象 融 是 这 3 类 信息 ， 从 以 上 描述 可 以 看 出 ， 倒 排列 表 数 据 有 其 特点 ， 即 
数字 分 布 严 重 不 均衡 ， 小 数值 占 了 相当 大 的 比例 。 


4.2.1 评价 索引 压缩 算法 的 指标 
目前 有 很 多 种 倒 排列 表 压 缩 算 法 可 供 选 择 ， 但 是 评判 算法 的 优 劣 需 


要 定量 指标 。 一 般 来 说 ， 评 价 倒 排 列表 压缩 算法 会 考虑 3 方面 的 指标 : 
压缩 率 、 压 缩 速度 和 解压 速度 。 




















所 谓 压 缩 紊 ， 束 是 数据 压缩 前 大 小 和 压缩 后 大 小 的 比例 关系 ， 很 明 
显 ， 压 缩 率 越 高 ， 就 越 节省 人 厂 盘 空间 ， 同 时 也 节省 了 倒 排列 表 从 磁盘 读 
入 到 内 存 的 VO 时 间 。 

压缩 速度 是 指 压缩 一 定量 的 数据 所 花费 的 时 间 ， 相 对 而 言 ， 这 个 指 
标 不 如 其 他 两 个 指标 重要 ， 因 为 压缩 往往 是 在 建立 索引 过 程 中 进行 的 ， 
而 建立 索引 是 一 个 后 台 运 行 过 程 ， 不 需要 即时 响应 用 户 查 询 ， 即 使 速度 
慢 些 也 没有 太 大 关系 。 另 外 ， 建 立 索 引 的 次 数 相对 而 言 也 不 算 多 ， 所 以 
从 几 个 方面 考虑 ， 压 缩 速度 不 是 一 个 重要 指标 。 

解压 速度 在 3 个 指标 中 是 最 重要 的 ， 其 含义 是 将 压缩 数据 再 次 恢复 
为 原始 数据 所 花 忱 的 时 间 。 因 为 搜索 引擎 在 啊 应 用 户 碍 询 时 ， 从 磁盘 读 
入 的 是 压缩 后 的 数据 ， 需 要 实时 解压 以 快速 响应 用 户 ， 所 以 解压 速度 直 
接 关 系 到 系统 的 用 户 体 验 ， 其 重要 性 不 言 而 喻 。 


4.2.2 一 元 编码 与 二 进 制 编码 


一 元 编码 (Unary Code) 和 二 进 制 编码 (Binary Code) 是 所 有 倒 排 
列表 压缩 算法 的 基本 构成 元 素 ， 不 论 压缩 算法 内 部 逻辑 思路 是 怎样 的 ， 
最 终 都 要 以 这 两 种 格式 来 对 数据 进行 表示 。 要 么 是 以 一 元 编码 和 二 进 制 
编码 混合 的 方式 ， 要 么 是 单独 以 二 进 制 编 码 的 方式 。 可 以 认为 这 两 种 编 
码 格式 是 压缩 算法 的 基础 构件 。 

一 元 编码 是 非常 简单 直观 的 数据 表示 方式 ， 对 于 整数 X 来 说 ， 使 用 
X 一 1 个 二 进 制 数 字 1 和 末尾 一 个 数字 0 来 表示 这 个 整数 。 图 4-4 是 1 到 5 这 
几 个 数字 相对 应 的 一 元 编码 。 可 以 看 出 ， 一 元 编码 仅仅 适合 表示 非常 小 
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图 4.4 一 元 编码 


二 进 制 表 示 方 式 是 计算 机 内 部 的 标准 数据 存储 方式 ， 即 由 二 进 制 数 
字 0 和 1 进行 组 合 来 表示 实际 的 数据 。 不 同 的 比特 宽度 代表 了 不 同 的 数字 
表示 范围 ， 图 4-5 给 出 了 不 同 的 比特 宽度 能 够 表达 的 数值 范围 及 一 些 对 
应 的 二 进 制 表示 示例 。 比 如 对 于 比特 宽度 为 3 的 情形 ， 即 用 3 个 比特 位 来 
表示 数字 ， 那 么 其 能 够 表达 的 数值 范围 为 0 到 7 这 8 个 数字 ; 对 于 数字 5 来 
说 ， 将 3 个 比特 位 设置 为 二 进 制 101 的 方式 就 能 够 获得 表达 ， 其 他 例子 与 
此 相同 。 在 计算 机 内 部 ， 一 般 是 以 字 节 为 单位 的 ， 即 比特 宽度 为 8 的 二 
进 制 编码 就 是 一 个 字 节 。 相 对 于 一 元 编码 来 说 ， 只 要 比特 宽度 足够 长 ， 
那么 二 进 制 编码 可 以 表示 几乎 任意 范围 的 数字 。 





比特 ”数字 表示 a 
SE BA 二 进 制 表示 例子 


1 2 (0-1) 0:<0> 1:<1> 


2 4(0-3) 0:<00> 1:<01> 2:<10> 3:<11> 


3 8 (0-7) 1:<001> 3:<011> 5:<101> 
4 16 (0-15 ) 1:<0001> 10:<1010> 
5 32 (0-31) 1:<00001> 30:<11110> 














图 4-5 ”二 进 制 编码 方式 


了 解 了 一 元 编码 和 二 进 制 编码 这 两 个 压缩 基础 构件 ， 我 们 下 面 介 绍 
一 些 经 典 的 倒 排 列表 压缩 算法 。 





























4.2.3 Elias Gamma 算 法 与 Elias Delta 算 法 


Elias Gamma 压 缩 算法 利用 分 解 函数 将 符 压 缩 的 数字 分 解 为 两 个 
子 ， 之 后 分 别 用 一 元 编码 和 二 进 制 编码 来 表达 这 两 个 因子 。 

Elias Gamma 算 法 采用 的 分 解 函 数 如 下 。 

x=2° +d 

其 中 ，x 为 待 压缩 的 数字 ，e 和 d 分 别 为 其 因子 ， 得 到 分 解 因子 后 ， 
对 于 因子 e 十 1 采用 一 元 编码 来 表示 ， 对 于 因子 d 采 用 比特 宽度 为 e 的 二 进 
制 编码 来 表示 。 

假设 竺 压缩 的 数字 为 9， 因 为 9 可 以 分 解 为 2 的 3 次 方 加 1， 所 以 e 王 3 
而 d 二 1， 对 e 十 1 用 一 元 编码 后 为 1110， 而 对 d 用 比特 宽度 为 3 的 二 进 制 
编码 进行 转换 后 为 001， 将 两 者 拼接 获得 : 1110:001， 此 即 为 数字 9 对 应 
的 Elias Gamma 编 码 。 

Elias Delta 算 法 是 建立 在 Elias Gamma 算 法 基础 上 的 改进 ， 在 概念 上 
可 以 认为 是 利用 两 次 Elias Gamma 算 法 ， 将 待 压缩 的 数字 分 解 为 3 个 因 
子 ， 之 后 利用 一 元 编码 和 二 进 制 编码 来 进行 数值 压缩 。 











MF RABE x, Elias Delta 算 法 根据 分 解 函数 ， 将 其 分 解 为 因子 
e 和 因子 d， 对 因子 d 采 用 比特 宽度 为 e 的 二 进 制 编 码 进行 压缩 ， 而 对 于 因 
子 e 十 1， 则 使 用 Elias Gamma 算 法 再 次 进行 压缩 ， 即 分 解 出 另外 两 个 因 
子 。 由 此 过 程 可 以 看 出 ，Delta 算 法 等 于 使 用 了 两 次 Elias Gamma 算 法 ， 
将 待 压 缩 数 字 分 解 为 3 个 因子 ， 然 后 分 别 编码 获得 最 后 的 压缩 数据 。 

我 们 仍然 以 数字 9 来 说 明 Elias Delta 的 编码 过 程 。 根 据 分 解 函数 可 
知 ，e 王 3 而 4 二 1， 对 d 利 用 3 比特 宽度 的 二 进 制 编码 压缩 为 001， 对 e 十 1 
即 数字 4 采用 Elias Gamma 算 法 获得 编码 110:00， 将 两 者 拼接 获得 最 终 压 
缩编 码 为 110:00:001。 

从 以 上 两 个 压缩 算法 的 过 程 可 以 看 出 ，Elias Delta 算 法 对 于 大 数值 
来 说 压缩 效果 要 优 于 Elias Gamma 算 法 。 








4.2.4 ”Golomb 算 法 与 Rice 算 法 


Golomb 算 法 和 Rice 算 法 在 大 的 思路 上 也 与 上 述 的 两 个 Elias 算 法 类 
似 ， 即 根据 分 解 函 数 将 待 压缩 数值 分 解 为 两 个 因子 ， 分 别 用 一 元 编码 和 
二 进 制 编码 来 进行 数据 压缩 表示 。 不 同 点 在 于 ， 它 们 采用 了 和 Elias 算 法 
不 同 的 分 解 函 数 。 

对 于 待 压缩 数值 X，Golomb 和 Rice 算 法 采用 了 如 下 的 因子 分 解 方 


INA 








因子 1 二 〈X 一 1) /b 
因子 2 二 (X—1) modb 

因子 1 是 将 X 减 1 后 除 以 参数 b 向 下 取 整 后 获得 的 整数 ， 将 其 值 加 1 然 
后 采用 一 元 编码 压缩 ， 而 因子 2 则 是 对 参数 b 进 行 取 模 运算 ， 获 得 取 值 范 
围 在 0 到 b 一 1 之 间 的 X 除 以 b 后 的 余数 ， 对 因子 2 使 用 二 进 制 编码 进行 压 
缩 ， 因 为 取 横 运算 决定 了 其 取 值 范围 一 定 在 0 到 b 一 1 之 间 ， 所 以 二 进 制 
编码 的 比特 宽度 设 定 为 log (b) 就 能 表示 这 个 范围 内 的 数值 。 

对 于 Golomb 算 法 和 Rice 算 法 来 说 ，b 如 何 取 值 是 其 关键 ， 这 两 个 算 
法 的 不 同 点 也 仅仅 在 于 b 的 不 同 取 值 方式 。b 的 取 值 依据 是 什么 呢 ? b 的 
设 定 依 赖 于 待 编 码 数值 序列 的 平均 值 或 者 中 位 数 ， 在 此 基础 上 ， 
Golomb 和 Rice 算 法 对 b 的 设 定 采取 了 不 同 的 策略 ， 假 设 一 个 符 压 缩 数 值 
序列 的 平均 值 为 Avg， 则 Golomb 算 法 设 定 为 : 

b=0.69xAvg; 

这 里 的 0.69 是 个 经 验 参 数 ， 而 Rice 算 法 则 要 求 b 一 定 要 为 2 的 整数 次 

需 ， 同 时 b 必 须 是 所 有 小 于 平均 值 Avg 的 2 的 整数 次 过 的 数值 中 最 接近 














Avg 的 数值 。 假 设 Avg 的 数值 为 113 的 话 ， 则 b 会 被 设 定 为 64， 因 为 如 果 
是 128， 则 超过 了 113， 如 果 是 32， 则 此 值 不 是 小 于 113 且 最 接近 113 的 数 
值 ， 只 有 64 符 合 这 些 条 件 。 

图 4-6 给 出 了 利用 Golomb 算 法 和 Rice 算 法 对 待 压缩 数值 序列 进行 压 
缩 的 示例 。 首 先 ， 获 得 数值 序列 的 平均 值 133，Golomb 算 法 设 定 b 三 
78， 其 二 进 制 编码 的 比特 宽度 可 以 取 6 或 者 7， 即 对 在 0 到 77 范 围 内 的 数 
值 ， 如 果 因 子 分 解 后 因子 2 的 值 小 于 50， 则 采取 6 比特 宽度 ， 如 果 因 子 2 
的 值 大 于 50 则 采取 7 比特 宽度 ， 这 样 可 以 有 效 减少 压缩 数据 的 大 小 ;而 
Rice 算 法 设 定 b=64， 其 二 进 制 编码 的 比特 宽度 取 6。 当 这 些 参数 都 可 以 
确定 下 来 后 ， 即 可 对 数值 进行 压缩 编码 ， 我 们 以 数值 144 为 例 说 明 ， 首 
先 对 其 减 去 1， 即 需要 对 143 进 行 压缩 。 对 于 Golomb 算 法 来 说 ， 其 对 应 
的 因子 1 取 值 为 1， 数 值 加 1 后 采用 一 元 编码 得 到 10， 因 子 2 取 值 为 65， 对 
其 进行 二 进 制 编码 得 到 1000001， 拼 接 两 者 获得 最 终 编 码 10:1000001。 
对 于 Rice 算 法 来 说 ，143 对 应 的 两 个 因子 分 别 为 2 和 15， 对 2 加 1 后 进行 一 
元 编码 得 到 110， 对 15 进 行 二 进 制 编码 得 到 001111， 拼 接 两 者 得 到 最 终 
编码 110:001111。 
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33 0:100001 
143 1x78+65 10:1000001 143 2x64+15 110:001111 





0x64+33 











0x78+33 0:100001 


112 1x78+34 = 10:100010 112 1x64+48 10:110000 
110:100001 





161 2x78+5 110:000101 161 2x64+33 


图 4-6 ”Golomb 算 法 和 Rice 算 法 示例 


对 于 Rice 算 法 来 说 ， 之 所 以 要 设 定 b 为 2 的 整数 次 需 ， 是 为 了 在 具体 
实现 算法 时 能 够 采取 挫 码 操作 或 者 比特 位 移 操作 等 快速 运算 方式 ， 所 以 
Rice 在 运算 效率 方面 要 高 于 Golomb 算 法 。 

而 对 设 定好 的 参数 b 来 说 ， 其 适用 苑 围 可 以 是 局 部 的 也 可 以 是 全 局 
的 ， 所 谓 全 局 的 适用 范围 ， 束 是 说 确定 好 b 后 所 有 单词 对 应 的 倒 排列 表 
都 采用 同一 个 数值 ， 而 所 谓 局 部 的 适用 范围 ， 则 是 不 同 单词 的 倒 排列 表 
采取 不 同 的 参数 bp。 一 般 来 说 ， 如 果 索 引 非 常 庞大 ， 则 采取 局 部 参数 b 效 
果 更 好 ， 原 因 也 很 明显 ， 因 为 局 部 参数 b 等 于 是 对 待 编码 序列 根据 局 部 
分 布 情况 进行 自 适 应 调整 ， 这 样 会 使 得 压缩 效果 更 好 。 














4.2.5 变 长 字 节 算法 (Variable Byte) 


变 长 字 节 算法 以 字 节 〈 即 比特 宽度 为 8) 为 一 个 基本 存储 单位 ， 而 
之 前 介绍 的 压缩 算法 都 是 变 长 比特 算法 ， 即 以 比特 位 〈Bit) 作为 基本 
存储 单位 。 之 所 以 称 之 为 “ 变 长 字 节 ”， 是 因为 对 于 不 同 的 待 压 缩 数字 来 
说 ， 在 压缩 编码 后 占用 的 字 节 数目 不 一 定 相 同 ， 可 长 可 短 ， 是 变化 的 。 

一 个 字 节 包含 8 个 比特 位 ， 因 为 对 于 变 长 字 节 算法 来 说 ， 每 个 数字 
压缩 后 的 字 节 数目 是 变动 的 ， 为 了 确定 两 个 连续 数字 压缩 后 的 边界 ， 需 
要 利用 字 节 中 一 个 比特 位 作为 边界 判断 符号 ， 一 般 如 果 边 界 判断 比特 位 
设 定 为 0， 则 可 以 认为 这 个 字 节 是 数字 压缩 编码 的 最 后 一 个 字 节 ， 而 如 
果 设 定 为 1， 则 说 明 后 续 的 字 节 仍然 属于 当前 的 压缩 数据 数字 。 所 以 每 
个 字 节 在 概念 上 被 划分 为 两 部 分 ， 其 中 一 个 比特 位 用 来 做 边界 判断 ， 其 
他 7 个 比特 位 采用 二 进 制 编码 来 存储 压缩 数据 ， 即 每 个 字 节 的 数值 表示 
范围 为 128 个 数字 。 

给 定 一 个 数值 ， 如 何 对 其 进行 变 长 字 节 压缩 ? 图 4-7 给 出 了 数值 
33549 的 变 长 字 节 压 缩 示例 ， 因 为 一 个 字 节 可 表示 的 数值 范围 为 0 到 
127， 所 以 按照 128 作 为 基数 将 待 压缩 数值 进行 分 解 ， 分 解 后 的 因子 分 别 
为 2>、6 和 13， 则 在 相应 的 字 节 存储 这 几 个 因子 的 二 进 制 编 码 ， 同 时 设置 
边界 指示 位 置 为 1、1 和 0， 即 说 明 这 个 数值 需要 3 个 字 节 来 进行 存储 。 


0000010| 1 0000110 o 0001101 
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33549 = 2x128x128 + 6x: DR 





























图 4-7 变 长 字 节 压缩 示例 
对 于 多 个 连续 待 压缩 数值 ， 则 每 个 数值 依照 上 例 进 行 压 缩编 码 ， 将 


其 压缩 编码 连续 存储 即 可 。 图 4-8 给 出 了 多 个 连续 数值 序列 对 应 的 变 长 
字 节 编码 序列 。 








图 4-8 ”多 数值 的 变 长 字 节 编码 序列 


4.2.6 ”SimpleX 系 列 算法 


SimpleX 系 列 算法 最 常见 的 是 Simple9， 在 此 基础 上 有 改进 算法 
Simple16、relate10 及 carryover12 等 ， 本 节 我 们 主要 介绍 Simple9 算 法 的 
计算 思路 。 

Simple9 是 一 种 字 对 齐 算法 ， 最 常用 的 是 利用 32 个 比特 位 〈( 即 4 个 字 
W 来 作为 一 个 压缩 单位 ， 给 定 固定 大 小 的 压缩 单位 后 ， 每 个 压缩 单位 
试图 存储 多 个 待 压缩 的 数字 。 图 4-9 给 出 了 Simple9 算 法 的 字 划分 布局 。 
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图 4-9 ”Simple9 的 9 种 字 划 分 布局 
从 图 4-9 可 以 看 出 ， 每 个 32 位 比特 字 被 划分 为 两 个 组 成 部 分 ， 其 中 4 





个 比特 作为 管理 数据 存储 区 ， 剩 下 28 个 比特 作为 压缩 数据 存储 区 ， 而 压 
缩 数 据 存储 区 根据 实际 使 用 情况 ， 可 以 划分 为 9 种 布局 类 型 〈 这 也 是 
Simple9 的 名 字 来 源 ) 。4 比 特 类 型 指示 位 用 来 指示 后 续 的 数据 存储 区 属 
人 

比如 对 于 B 为 1 的 情况 ， 说 明 后 续 数 据 存储 区 基本 单元 比特 宽度 为 
1， 数 据 存储 区 共有 28 个 比特 ， 所 以 数据 区 被 划分 为 28 个 1 比特 宽度 的 基 
本 单元 构成 。 因 为 一 个 比特 只 能 存储 二 进 制 数值 0 或 者 1， 即 区 分 两 种 状 
况 ， 所 以 这 个 32 位 比特 字 可 以 存储 28 个 范围 在 0 到 1 的 数字 。 

对 于 B 为 2 的 情况 ， 数 据 存储 区 基本 构成 单元 比特 宽度 为 2， 即 数据 
存储 区 由 14 个 2 比特 位 基本 单元 拼接 而 成 ， 因 为 2 比特 位 可 以 表达 4 个 数 
字 ， 所 以 这 种 类 型 的 布局 ， 在 一 个 32 位 比特 字 中 ， 可 以 存储 14 个 范围 在 
0 至 3 的 数字 。 

类 似 地 ， 还 可 以 根据 B 的 不 同 大 小 设置 其 他 的 布局 方式 ， 图 4-9 给 出 
了 9 种 不 同 的 布局 ， 这 里 要 注意 的 是 : 对 于 有 些 宽度 的 基本 构成 单元 ， 
因为 不 能 被 28 整 除 ， 所 以 在 数据 存储 区 会 有 字 节 被 废弃 不 用 。 比 如 对 于 
B 为 3 的 情况 ， 则 最 后 一 位 比特 位 被 废弃 〈 图 中 有 网 线 的 单元 指出 了 在 各 
种 情况 下 废弃 的 比特 位 ) 。 

在 利用 Simple9 对 数据 进行 压缩 时 ， 首 先 读 取 符 压缩 数值 队列 后 续 
的 28 个 数字 ， 如 果 发 现 这 28 个 数字 都 是 0 或 者 1， 那 么 说 明 可 以 利用 B= 二 1 
这 种 布局 来 存储 ， 则 将 28 个 数字 编码 为 二 进 制 后 存 入 28 个 数据 位 ， 同 时 
在 类 型 指示 位 标 出 这 种 类 型 。 如 果 发 现 有 大 于 1 的 数值 ， 说 明 B 二 1 这 个 
布局 无 法 容纳 这 组 数据 ， 于 是 由 读 取 后 续 28 个 数字 改 为 读 取 后 续 的 14 个 
数字 ， 判 断 是 否 能 够 使 用 B 三 2 这 种 布局 ， 即 判断 后 续 14 个 待 压缩 数据 是 
否 都 在 0 到 3 的 数值 范围 ， 如 果 是 的 话 则 采取 B=2 布 局 压缩 ， 否 则 继续 考 
虑 B 三 3 的 布局 ， 依 次 如 此 试探 ， 即 可 将 待 压缩 数字 都 表示 为 固定 长 度 为 
32 位 比特 的 压缩 表示 方式 。 

利用 Simple9 进 行 解码 的 时 候 ， 因 为 编码 是 固定 长 度 的 ， 所 以 可 以 
一 次 读 取 4 个 字 节 〈 即 32 比 特 ) ， 从 4 比特 类 型 指示 位 判断 后 续 数 据 存储 
区 是 哪 种 布局 方式 ， 对 于 每 种 布局 方式 可 以 事先 准备 好 对 应 的 掩 码 ， 判 
断 出 布局 方式 后 ， 直 接 利 用 掩 码 可 以 一 次 性 解压 出 后 续 的 多 个 压缩 数 
Fo 

Simple16 等 后 续 改 进 算 法 在 Simple9 基 础 上 做 出 了 改进 ， 改 进 思路 大 
致 相同 。 首 先 ，Simple9 的 类 型 指示 位 由 4 比特 位 构成 ， 即 说 明 其 可 以 指 
示 16 种 不 同情 况 ， 而 Simple9 因 为 只 有 9 种 类 型 ， 所 以 并 未 完全 利用 这 4 
比特 指示 位 置 ， 可 以 将 9 种 布局 进行 扩展 ， 扩 展 为 更 多 种 布局 方式 ， 















































Simple16 就 是 将 后 续 28 位 数据 存储 区 划分 为 16 种 组 成 方式 。 另 外 一 点 ， 
从 图 4-9 可 以 看 出 ，Simple9 在 有 些 布局 方式 下 会 有 废弃 比特 位 ， 而 这 明 
显 是 对 存储 资源 的 浪费 ， 可 以 考虑 如 何 将 其 利用 起 来 。Simple9 之 所 以 
会 出 现 废弃 位 ， 是 因为 它 对 28 位 数据 存储 区 是 等 宽度 划分 的 ， 所 以 必然 
会 有 无 法 被 28 整 除 而 出 现 的 废弃 位 。Simple16 等 改进 算法 则 放宽 了 这 种 
要 求 ， 即 数据 存储 区 不 一 定 是 等 宽 的 ， 比 如 对 于 Simple9 的 B= 二 5 的 状 
况 ， 可 以 划分 为 4 个 5 比特 及 后 续 的 两 个 4 比特 ， 这 样 就 可 以 全 部 利用 存 
储 区 的 位 置 ， 同 时 表达 能 力 得 到 增强 ， 即 在 压缩 时 ， 可 以 有 更 多 种 方式 
来 进行 压缩 编码 。 








4.2.7 PForDelta 算 法 


PForDelta 压 缩 算 法 是 目前 解压 速度 最 快 的 一 种 倒 排 文 件 压 缩 算法 ， 
其 基本 出 发 点 是 : 尽 可 能 一 次 性 压缩 和 解压 多 个 数值 。 尽 管 SimpleX 系 
列 算法 也 利用 了 这 一 点 ， 但 PForDelta 算 法 在 这 方面 做 得 更 好 。 

一 次 性 压缩 多 个 数值 面临 实际 困难 : 因为 连续 的 数值 序列 有 大 有 
小 ， 如 果 每 个 数值 按照 序列 中 最 大 的 数值 来 决定 比特 宽度 ， 很 明显 对 于 
小 数值 来 说 会 存在 空间 浪费 的 情形 ， 而 如 果 不 按 照 最 大 数值 分 配 比 特 宽 
度 ， 那 么 对 于 后 续 连 续 数 值 来 说 ， 因 为 比特 宽度 不 够 ， 存 在 有 些 大 数值 
无 法 表示 的 问题 。 

PForDelta 希 望 能 在 压缩 率 和 压缩 解压 速度 方面 找到 一 个 平衡 点 ， 使 
得 算法 可 以 一 次 压缩 解压 多 个 数值 。PForDelta 的 折 中 方案 是 : 对 于 待 编 
码 的 连续 K 个 数值 (一 般 K 取 128， 即 一 次 性 压缩 解压 128 个 数值 ) , FR 
出 其 中 10% 比 例 的 大 数 ， 根 据 剩 下 90% 的 数值 范围 来 决定 应 该 采取 的 比 
特 宽度 ， 而 10% 的 大 数 则 当做 异常 数据 和 单独 存储 ， 即 采取 了 “照顾 大 多 
数 ” 的 原则 ， 对 于 少数 情况 做 特殊 处 理 。 

下 面 以 具体 实例 来 看 看 PForDelta 算 法 的 静态 结构 、 压 缩 过 程 及 解压 
过 程 。 假 设 一 次 性 要 压缩 的 数值 序列 为 : 24,40,9,13,31,67,19,44,22,10， 
即 K 取 10， 男 外 为 了 方便 说 明 问 题 ， 这 里 取 30% 的 大 数 作 为 异常 数 ， 而 
在 真实 场景 K 往 往 取 128， 大 数 比 例 一 般 取 10% 。 图 4-10 是 PForDelta 算 法 
压缩 以 上 数据 序列 后 形成 的 静态 结构 ， 压 缩 后 的 数据 可 以 划分 为 3 块 : 
异常 数据 存储 区 、 篆 规 数据 存储 区 和 蜡 常 链表 头 。 




















图 4-10 ”PForDelta 算 法 压缩 数据 的 静态 结构 
异常 数据 存储 区 存储 的 是 数值 序列 中 30% 比 例 的 大 数 ， 这 些 异常 数 








值 不 做 压缩 编码 ， 每 个 数值 用 4 个 字 节 来 存储 ， 并 放置 在 静态 结构 的 尾 
端 ， 存 储 顺序 与 其 在 原始 数值 序列 的 出 现 顺序 相反 。 

常规 数据 存储 区 则 存储 了 70% 的 小 数 及 一 个 异常 数据 链表 结构 ， 在 
上 述 例子 中 ， 除 了 30% 的 3 个 大 数 外 ， 最 大 的 数值 为 31， 所 以 为 了 能 够 
表示 这 70% 的 数值 ， 比 特 宽度 需要 设 定 为 5， 因 为 每 个 数值 利用 5 个 比特 
位 存储 ， 那 么 可 存储 的 最 大 数值 为 31， 这 样 就 保证 这 70%% 的 数值 都 可 以 
以 等 长 的 比特 宽度 压缩 存储 。 尽 管 30% 的 大 数 已 经 被 存储 在 尾 端 ， 但 是 
为 了 能 够 记载 这 些 数 在 原始 序列 中 的 位 置信 息 ，PForDelta 在 常规 数据 存 
储 区 维护 了 异常 大 数 的 一 个 顺序 链表 ， 比 如 对 于 异常 数值 40， 其 常规 数 
据 存储 区 对 应 位 置 设 定 为 3， 含 义 是 指 跳 过 后 面 3 个 数值 即 是 另外 一 个 异 
常 大 数 的 位 置 ， 同 理 ， 数 值 67 的 对 应 位 置 设 定 为 1， 意 即 跳 过 后 面 1 位 数 
值 即 是 后 续 的 异常 大 数位 置 ， 通 过 这 样 就 将 异常 大 数 的 位 置信 息 保留 下 
来 ， 这 样 在 解压 的 时 候 能 够 快速 恢复 原始 数据 。 

异常 链表 头 则 存放 一 个 指针 ， 指 向 了 异常 链表 的 第 1 个 数值 的 位 
置 ， 本 例 中 链表 头 的 值 为 1， 意 即 跳 过 后 续 一 个 常规 数值 即 可 获得 第 1 个 
异常 大 数 的 位 置 ， 通 过 链表 头 ， 就 可 以 将 所 有 异常 大 数 快速 串联 起 来 。 

以 上 介绍 的 是 PForDelta 算 法 的 静态 压缩 结构 ， 那 么 给 定 上 述 10 个 竺 
压缩 数据 流 ， 是 如 何 形成 最 终 的 压缩 结构 的 ? PForDelta 采 取 了 3 个 步 又 
来 形成 压缩 结构 ， 图 4-11 展 示 了 这 3 个 连续 的 步 又。 
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图 4-11 PEForDelta 的 压缩 过 程 


第 1 步 ， 根 据 待 压缩 的 数据 流 ， 确 定 30%% 比 例 的 大 数 个 数 及 分 别 是 
哪些 数值 ， 在 此 例 中 依次 为 40、67 和 44， 根 据 剩 下 的 70% 数 值 大 小 ， 可 
ee Se ie 
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区 中 。 经 过 第 2 步 后 ， 可 以 保证 10 个 待 压缩 的 数据 都 在 32 以 下 ， 如 果 有 是 
这 样 就 可 以 采取 措施 快速 压缩 。 

通过 以 上 3 个 步骤 ， 即 可 对 多 个 数值 成 功 地 进行 一 次 性 压缩 ， 至 于 
解压 ， 则 可 以 理解 为 压缩 过 程 后 面 两 个 步骤 的 逆 过 程 ， 即 通过 两 明 完 











成 。 首 先 ， 一 次 性 将 常规 存储 区 的 10 个 数值 进行 解压 ， 然 后 根据 异常 链 
表 头 ， 依 次 顺序 读 出 异常 大 数 的 位 置 ， 结 合 尾 部 存储 的 异常 大 数 恢 复原 
始 数值 序列 。 

多 项 实验 表明 ，PForDelta 的 解压 速度 是 现 有 压缩 算法 里 最 快 的 ， 而 
且 性 能 大 幅度 超过 其 他 算法 。 主 要 原因 是 其 能 够 一 次 性 解压 多 个 数据 ， 
尽管 恢复 寞 第 数据 速度 比较 慢 ， 但 是 因为 其 所 占 比例 很 小 ， 所 以 影响 不 
K; 为 一 操 ，PForDelta 之 所 以 将 解压 设置 为 两 表 方 式 ， 而 非 一 过 做 完 ， 
是 为 了 在 程序 中 避免 做 下 -ELSE 这 种 分 文 判 断 ， 因 为 大 量 分 支 判 断 严重 
影响 解压 执行 速度 。 比 如 Simple9 算 法 解压 ， 每 4 个 字 市 束 需 要 做 一 次 分 
文 判 断 ， 因 为 要 判断 压缩 数据 是 9 种 布局 中 的 哪 一 种 ， 而 变 长 字 节 算法 
解压 则 每 个 字 节 都 需要 做 分 文 判断 ， 以 决定 当前 字 节 是 否 是 茶 个 数字 的 
最 后 一 个 字 节 ， 相 对 应 地 ，PForDelta 在 其 解压 流程 中 是 不 做 任何 分 支 判 
断 的 ， 这 也 是 其 速度 快 的 重要 原因 之 一 。 





























4.3 ”文档 编号 重 排序 (DocID Reordering) 











对 于 搜索 引擎 来 说 ， 在 建立 索引 的 过 程 中 ， 要 对 每 个 网 页 赋予 唯一 
的 文档 编号 《文档 ID ) ， 在 搜索 引擎 内 部 ， 都 以 文档 ID 来 标记 茶 个 网 
页 ， 以 方便 搜索 引 敬 内 部 处 理 。 和 常见 的 做 法 是 随机 赋予 条 个 网 页 一 个 编 
号 ， 比 如 可 以 根据 改 虫 抓 取 网 页 的 时 间 先 后 顺序 来 依次 顺序 编号 。 

索引 中 茶 个 单词 的 倒 排列 表 ， 一 般 会 记录 包含 这 个 单词 的 所 有 网 页 
的 文档 ID 和 单词 词 频 信 息 ， 索 引 压 缩 技术 可 以 有 效 压缩 这 些 数 值 信息 ， 
以 增加 搜索 引擎 效率 。 对 于 索引 压缩 技术 来 说 ， 如 果 需 要 压缩 的 原始 数 
所 的 值 越 小 ， 压 缩 效 果 越 好 ， 之 前 介绍 的 倒 排 列表 中 文档 ID 采用 D- 
Gap 《文档 差 值 编号 ) 进行 编码 就 是 出 于 这 种 考虑 。 

文档 编写 重 排 序 技 术 考 虑 在 文档 编写 上 做 文章 ， 不 是 随机 赋予 网 页 
一 个 文档 ID， 而 是 通过 对 文档 ID 进行 更 加 合理 的 编号 ， 使 得 在 倒 排列 表 
中 相 邻 的 两 个 文档 其 编号 也 尽 可 能 相 邻 ， 这 样 可 以 使 相 邻 文档 的 D-Gap 
值 尽 可 能 小 ， 而 对 小 数值 采用 压缩 算法 效率 会 更 高 。 所 以 ， 这 个 扩 术 的 
核心 目的 是 : 重新 编排 文档 的 编写， 以 使 得 条 个 单词 倒 排 列表 中 相 邻 的 
两 个 文档 其 文档 编写 尽 可 能 相近 。 

为 了 达到 这 个 目的 ， 我 们 希望 内 容 越 相似 的 网 页 ， 在 编排 文档 编写 
时 ， 其 文档 编写 越 相 邻 。 互 联网 包含 了 海量 的 网 页 数据 ， 但 是 这 些 网 页 
并 非 坚 不 相干 ， 很 多 网 页 讲述 的 内 容 主题 相同 ， 这 些 内 容 相似 的 网 页 所 
使 用 的 词汇 有 很 大 一 部 分 是 重 登 的， 这些 相 同 的 单词 表达 了 这 批 网 页 所 



































代表 的 主题 。 如 果 能 够 将 这 些 内 容 相 似 的 网 页 依次 编写， 那么 对 于 表达 
主题 内 容 的 条 个 单词 来 说 ， 包 含 这 个 单词 的 大 部 分 网 页 的 文档 编写 束 是 
相近 的 ， 即 其 倒 排 列表 中 的 文档 编号 相 邻 ， 以 此 达到 该 技术 的 核心 目 
标 。 





下 面 以 具体 例子 来 次 明文 档 编 号 重 排序 的 基本 技术 思路 〈 参 考 图 4- 
POR 





假设 搜索 引擎 爬虫 抓 取 了 5 个 互联 网 页 面 ， 并 随机 赋予 网 页 一 个 纺 
号 ， 得 到 以 下 网 页 集合 。 


原始 文档 编号 网 页 内 容 
1 谷歌 确认 赫 利 将 辞去 YouTube CEO 职位 
2 Facebook 或 将 推出 社交 签到 功能 Deals 
( 续 表 ) 
原始 文档 编号 网 页 内 容 
3 YouTube 创始 人 兼 CEO 称 将 逐步 退 居 幕 后 
4 用 Facebook Places 到 歌手 广告 牌 签到 


5 YouTube CEO RAIER EE As Hi RIE 











| oct SRR MFI HH YouTube CEO 职位 |} Doc2: Facebook 或 将 推出 社交 签到 功能 Deals | 


Doc4: fi Facebook Places 到 歌手 广告 牌 签到 | 间 Doc3: YouTube 创 始 人 兼 CE0 称 将 逐步 退 居 幕后 
Doc5; YouTube CEO 赫 利 卸 职 转 做 咨询 岗位 | 
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rem 
:谷歌 确认 赫 利 将 辞去 YouTube CEO 职位 
ee :YouTube 创始 人 兼 CE0 称 将 逐步 退 居 幕 后 
-一 : YouTube CE0 赫 利 征 职 转 做 咨询 岗位 





:文档 BHR, 


SR Pi MH BRE YouTube CEO 职位 
YouTube BiS4A IRC E0 称 将 逐步 退 居 幕后 
YouTube CEO AFISIER E A i) iz 


用 Facebook Places 到 歌手 广告 牌 签 到 
Facebook 或 将 推出 社交 签到 功能 Deals 


BEERE 








图 4-12 ”文档 编号 重 排序 


从 网 页 内 容 可 以 看 出 ， 文 档 1、 文 档 3 和 文档 5 讲述 相似 的 内 容 ， 同 
样 ， 文 档 2 和 文档 4 也 是 如 此 。 可 以 采用 文本 聚 类 的 方法 ， 将 内 容 相 似 的 
网 页 聚合 在 一 起 ， 在 这 个 例子 里 ， 聚 类 结果 有 两 个 ， 分 别 讲述 了 





YouTube 和 Facebook 公 司 的 新 闻 事 件 。 
接 下 来 ， 搜 索引 擎 将 重新 赋予 文档 编写， 基本 原则 是 内 容 相似 的 网 
页 赋予 相 邻 的 文档 编写， 于 是 网 页 获得 了 如 下 新 的 文档 编号 。 
新 的 文档 编号 网 页 内 容 
谷歌 确认 赫 利 将 辞去 YouTube CEO 职位 
Facebook 或 将 推出 社交 签到 功能 Deals 
YouTube 创始 人 兼 CEO 称 将 逐步 退 居 幕后 
用 Facebook Places 到 歌手 广告 牌 签到 
YouTube CEO PAIE HR FEA E Bi A 
通过 以 上 的 文档 重新 编号 ， 对 索引 内 容 有 何 影响 ?图 4-13 给 出 了 文 
档 重 新 编号 前 后 索引 差异 的 图 示 。 这 里 需要 注意 的 是 : 为 了 便于 说 明 问 
题 ， 倒 排列 表 只 包 全 了 文档 ID， 另 外 文档 ID 是 以 D-Gap 的 方式 存储 的 。 
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图 4-13 ”文档 ID 重 排 序 后 索引 内 容 的 变化 


我 们 以 单词 *YouTube” 为 例 ， 看 看 文档 重新 编号 前 后 索引 内 容 有 何 
变化 。 在 文档 重新 编号 之 前 ， 文 档 1、 文 档 3 和 文档 5 中 包含 
了 “YouTube”， 所 以 这 个 单词 对 应 的 倒 排 列表 中 应 该 记录 的 文档 ID 为 
{1,3,5}， 由 于 采用 D-Gap 方 式 ， 对 应 的 数值 为 相 邻 文档 编号 的 差 值 ， 即 
{1,2,2}。 

经 过 文档 编号 重 排序 ， 原 先 的 文档 3 重新 编写 为 文档 2， 原 先 的 文档 
5 重新 编写 为 文档 3， 按 照 D-Gap 方 式 ， 单 词 *YouTube” 对 应 的 倒 排 列表 
为 {1,1,1}， 即 原先 的 文档 编号 差 值 2 都 变 为 了 差 值 1。 索 引 中 的 其 他 单词 
倒 排 列表 变化 也 都 类 此 。 通 过 这 种 方式 ， 就 将 倒 排 列表 中 需要 记录 的 文 
eee yee ee renee ee 
HA% o 

以 上 介绍 的 方法 基本 体现 了 文档 编写 重 排序 技术 的 基本 思想 和 流 
程 ， 在 这 个 流程 里 ， 文 本 聚 类 是 个 很 重要 的 组 成 部 分 ， 但 是 互联 网 网 页 
数据 量 非 常 大 ， 面 对 海量 数据 ， 文 本 聚 类 的 速度 难以 满足 实际 需求 。 相 
关 研 究 人 员 提 出 了 一 些 局 发 规则 来 改善 这 种 状况 ， 一 种 非常 有 效 的 启发 
规则 是 : 将 页 面 URL 相 似 的 网 页 聚合 在 一 起 。 这 里 主要 考虑 到 ， 同 一 个 
网 站 的 很 多 页 面 表达 的 主题 内 容 是 近似 的 ， 通 过 这 种 方式 可 以 非常 高 效 
地 将 网 页 聚合 在 一 起 ， 之 后 根据 聚 类 结果 对 文档 ID 进行 重新 编号 〈 人 参考 
图 4-14 所 示 ) ， 这 样 就 可 以 高 效 地 完成 文档 编写 重 排序 任务 。 
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不 重要 的 信息 来 达到 更 好 的 数据 压缩 效果 。 

静态 索引 裁剪 的 出 太太 是 基于 如 下 考虑 对 于 用 户 查 询 来 说 ， 搜 索 
系统 往往 只 需要 返回 相关 性 最 蜗 的 K 个 网 页 ， 不 需要 将 所 有 相关 网 页 都 
呈现 给 用 户 。 既 然 如 此 ， 对 于 词典 中 的 菏 个 单词 ， 其 对 应 的 倒 排 列表 中 
的 索引 项 ， 对 计算 网 页 和 用 户 碍 询 最 终 相关 性 得 分 的 贡献 是 不 同 的 ， 有 
的 对 于 计算 最 终 得 分 很 重要 ， 有 些 则 不 是 那么 重要 。 所 以 可 以 将 那些 不 
重要 的 索引 项 从 倒 排 索引 中 清除 控 ， 只 保留 重要 的 索引 项 ， 这 样 束 有 效 
地 减少 了 索引 的 大 小 ， 同 时 尽 可 能 保证 搜索 质量 ， 使 得 用 户 基本 多 觉 不 
到 索引 项 是 不 完整 的 。 






































静态 索引 裁剪 在 以 上 出 发 点 的 基础 上 ， 在 具体 设计 算法 时 ， 大 体 有 
两 种 不 同 的 思路 ， 一 种 被 称 为 以 单词 为 中 心 的 索引 裁 甬 ， 一 种 被 称 为 以 
文档 为 中 心 的 索引 裁 甬 。 


4.4.1 以 单词 为 中 心 的 索引 裁 勇 


对 于 菏 个 单词 来 说 ， 其 对 应 的 倒 排列 表 记 载 了 出 现 这 个 单词 的 文档 
编号 信息 ， 以 单词 为 中 心 的 索引 能 裁 ， 其 勇 裁 对 象 就 是 单词 对 应 倒 排列 
表 中 的 文档 。 

假设 我 们 已 经 有 了 一 个 相似 性 计算 函数 g(term,doc) ， 这 个 函数 可 
以 计算 倒 排 索引 中 某 个 单词 和 其 对 应 倒 排 列表 某 个 文档 的 相似 性 (详情 
请 参考 本 书 第 5 章 ) ， 那 么 就 可 以 利用 这 个 函数 的 计算 结果 来 作为 是 否 
保留 某 个 索引 项 的 评判 标准 。 

图 4-15 给 出 了 以 单词 为 中 心 的 索引 裁 勇 示意 图 。 对 于 词典 中 的 单 
词 “ 搜 索引 擎 ”来 次 ， 其 倒 排列 表 中 包含 4 个 文档 : 文档 1、 文 档 3、 文 档 4 
和 文档 7。 函 数 g 用 来 计算 文档 和 单词 “搜索 引擎 ”的 相关 性 ， 通 过 函数 g 
分 别 得 出 对 应 的 得 分 ， 其 中 文档 1 的 得 分 为 0.3， 文 档 2 的 得 分 为 0.25， 文 
档 3 的 得 分 为 0.4， 文 档 7 的 得 分 为 0.18。 
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图 4-15 ”以 单词 为 中 心 的 索引 裁剪 


一 种 直观 的 裁 筋 方法 是 设 定 一 个 相似 性 得 分 国 值 ， 只 要 通过 函数 g 
计算 的 得 分 低 于 这 个 阐 值 ， 则 清除 掉 这 个 索引 项 ， 如 果 得 分 高 于 这 个 冰 
值 ， 则 保留 索引 项 。 比 如 我 们 设 定 国 值 b 为 0.35， 则 对 于 “搜索 引擎 * 这 个 
单词 来 说 ， 其 倒 排 列表 中 的 索引 项 只 有 文档 4 被 保留 ， 其 他 3 个 索引 项 被 
清除 ， 这 样 怠 有 效 地 减少 了 倒 排 索引 的 大 小 。 同 时 ， 因 为 保留 了 相关 性 








得 分 较 高 的 文档 案 引 项 ， 所 以 对 搜索 前 列 结果 没有 大 的 影响 ， 不 会 损害 
用 户 搜索 体验 。 

但 是 这 个 直观 方法 人 为 设 定 了 一 个 全 局 国 值 b， 而 这 个 国 值 不 考 碟 
词典 中 单词 的 具体 情况 ， 统 一 使 用 同一 设 定 值 ， 这 样 做 会 带 来 问题 ， 假 
设 我 们 设 定 阔 值 b 为 0.45， 那 么 对 于 “搜索 引擎 "这 个 单词 来 次 ， 其 所 有 索 
引 项 都 会 被 清除 挥 ， 这 并 不 是 我 们 希望 看 到 的 ， 因 为 如 果 有 用 户 以 “ 搜 
索引 擎 ”作为 查询 的 时 候 ， 搜 索 系 统 的 返回 结果 为 空 ， 而 全 局 性 阐 值 总 
征 难 免 将 茶 些 单词 的 索引 项 全 部 清除 。 

为 了 解决 以 上 问题 ， 可 以 增加 一 个 约束 条 件 : 每 个 词典 中 的 单词 ， 
其 对 应 的 倒 排 列表 中 都 应 该 至 少 保留 KK 个 索引 项 ， 这 个 K 可 根据 具体 情 
况 来 设 定 ， 比 如 可 以 设 定 其 为 搜索 引擎 的 默认 返回 结果 条 数 。 增 加 以 上 
约束 后 ， 可 以 采用 更 加 复杂 和 灵活 的 策略 来 对 索引 进行 甬 裁 ， 我 们 以 如 
图 4-16 所 示 的 具体 例子 来 说 明 这 个 新 的 勇 裁 方 式 。 在 这 个 例子 中 ， 我 们 
考虑 词典 中 的 两 个 单词 ， 一 个 是 单词 “搜索 引擎 "”， 其 倒 排 列表 和 上 文 所 
述 例子 一 致 ， 男 一 个 单词 “技术 ， 其 倒 排 列表 包含 两 个 索引 项 ， 文 档 2 
和 文档 3。 男 外 ， 这 里 设 定 K 为 2， 即 搜索 引擎 默认 输出 两 个 结果 。 需 要 
说 明 ， 实 际 搜索 引 获 的 这 个 数值 一 般 较 大 ， 这 里 的 设 定 是 为 了 方便 说 明 


问题 。 
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图 4-16 ”理想 的 索引 裁剪 方式 


新 的 裁剪 策略 采取 如 下 方式 ;每 个 单词 至 少 保留 K 个 索引 项 ， 如 果 
本 身 索引 项 不 足 K 个 ， 那 么 就 全 部 保留 ， 对 于 这 些 单词 的 倒 排列 表 不 做 
裁剪 。 比 如 图 中 的 单词 “技术 ”， 因 为 只 有 两 项 ， 所 以 不 做 裁 前 。 

对 于 多 于 K 个 索引 项 的 单词 ， 首 先 用 g 函 数 对 每 个 文档 和 单词 的 相 
关 度 进 行 打分 ， 根 据 得 分 对 文档 由 高 到 低 排序 ， 因 为 我 们 至 少 要 保留 K 
项 ， 所 以 得 分 排 在 前 K 个 的 索引 项 是 需要 保留 的 项 目 ， 但 是 只 保留 K 项 
还 不 够 ， 系 统 还 需要 留 些 富余 项 目 ， 即 那些 分 数 比 第 K 项 得 分 稍 低 些 的 
项 目 也 可 以 保留 下 来 ， 不 做 裁剪 。 为 了 达到 这 个 目的 ， 可 以 对 第 K 个 的 
得 分 进行 打折 ， 即 乘 上 一 个 折扣 因子 ， 得 出 一 个 阔 值 a， 剩 下 的 项 目 ， 
如 果 得 分 高 于 这 个 阔 值 ， 则 保留 ， 低 于 这 个 阔 值 ， 则 裁剪 掉 。 

在 图 4-16 中 ， 我 们 来 看 看 如 何 裁剪 单词 “搜索 引擎 对 应 的 倒 排 列表 
项 。 首 先 根据 函数 g 对 每 个 索引 项 的 重要 性 打分 ， 每 个 文档 对 应 的 分 数 
如 图 4-16 所 示 ， 其 得 分 由 高 到 低 分 别 为 :文档 4、 文 档 1、 文 档 3 和 文档 
7。 因 为 K 被 设 定 为 2， 所 以 可 以 确定 保留 的 是 文档 4 和 文档 I， 文档 1 的 
得 分 为 0.3。 进 一 步 ， 为 了 能 够 留 下 富余 项 ， 考 虑 对 0.3 进 行 折扣 ， 设 定 
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为 什么 要 在 这 里 保留 语 余 索引 项 呢 ? 我 们 还 是 以 图 4-16 来 说 明 其 原 
因 。 如 果 不 做 富余 项 保留 ， 可 以 看 到 ， 对 于 单词 “搜索 引擎 ”来 说 ， 只 保 
留 文 要 4 和 文档 1， 文 档 3 会 被 裁 甬 把 。 假 设 用 户 输 入 的 碍 询 为 “搜索 引 
擎 ”技术 ?两 个 单词 ， 从 其 各 目 得 分 情况 可 以 看 出 ， 对 于 这 个 查询 来 
说 ， 文 档 3 是 综合 得 分 最 高 的 ， 应 该 排 在 搜索 结果 头条 ， 但 是 如 果 将 其 
索引 项 裁 蚤 后， 其 排名 将 大 幅 下 降 ， 如 果 是 其 他 例子 ， 甚 至 可 能 导致 本 
应 被 搜索 到 的 结果 无 法 搜索 出 来 。 所 以 保留 言 余 索引 项 是 出 于 保证 复杂 
查询 的 搜索 质量 考虑 的 。 

以 上 是 一 个 灵活 的 “理想 化 ?表态 索引 裁 甬 过程 ， 之 所 以 说 是 理想 化 
的 ， 是 因为 实验 结果 证 明 ， 这 个 方法 裁剪 效果 不 佳 ， 往 往 裁 剪 不 了 多 少 
索引 项 。 后 续 实 验证 明 ， 如 果 首 先 对 所 有 索引 项 的 原始 得 分 减 去 得 分 最 
低 索 引 项 的 得 分 〈 在 图 4-16 中 ， 对 于 “搜索 引擎 * 这 个 单词 来 说 ， 就 是 所 
有 索引 项 得 分 减 去 文档 7 的 得 分 0.18) ， 之 后 再 采取 如 上 的 裁剪 过 程 ， 
则 效果 会 得 到 很 大 的 提升 。 其 中 原因 可 能 是 因为 索引 项 得 分 相关 不 大 ， 
比较 集中 在 东 个 区 间 ， 所 以 减 去 得 分 最 低 项 的 得 分 ， 等 价 于 将 分 数 评价 
标准 精度 提高 ， 此 时 对 于 原先 细微 的 得 分 差异 也 可 以 进行 裁 筋 。 在 如 图 
4-16 所 示 的 例子 中 ， 如 果 采 取 这 种 调整 策略 ， 单 词 “搜索 引擎 "对 应 的 倒 
排列 表 中 ， 文 档 3 会 被 裁剪 掉 ， 而 之 前 理想 化 裁剪 方案 则 是 予以 保留 
的 ， 所 以 这 种 方式 的 压缩 率 相 对 大 些 。 


4.4.2 ”以 文档 为 中 心 的 索引 裁剪 
以 单词 为 中 心 的 索引 裁剪 在 建 好 的 倒 排 索引 基础 上 对 索引 项 进行 删 


除 ， 而 以 文档 为 中 心 的 索引 勇 裁 则 可 以 认为 是 在 建立 索引 之 前 进行 的 数 
据 预 处 理 措 施 。 图 4-17 是 这 种 裁剪 方式 的 示意 图 。 



























































倒 排 索引 
图 4-17 ”以 文档 为 中 心 的 索引 裁剪 


我 们 知道 ， 尽 管 一 篇 文档 包含 很 多 单词 ， 但 是 这 些 单词 对 于 表达 文 
档 主 题 作用 是 不 一 样 的 ， 有 些 单词 对 于 文档 主题 表达 是 必 不 可 少 的 ， 而 
有 些 单词 则 不 是 那么 重要 。 

以 文档 为 中 心 的 索引 裁 勇 首先 判断 文档 所 包含 单词 的 重要 性 ， 经 过 
一 定 的 重要 性 得 分 计算 ， 保 留 重要 单词 ， 抛 弃 不 重要 的 单词 。 首 先 对 每 
个 文档 先进 行 缩水 ， 然 后 在 此 基础 上 建立 倒 排 索引 ， 这 同样 能 够 达到 减 
小 款 引 大 小 的 目的 。 不 过 与 以 单词 为 中 心 的 索引 裁 甬 相 比 ， 这 种 方式 对 
于 有 些 单词 来 说， 其 倒 排 列表 为 空 ， 比 较 极 端 但 是 直观 的 例子 就 是 俘 用 
词 ， 比 如 “的 ”等 单词 ， 因 为 不 能 表达 意义 ， 这 些 单词 在 绝 大 多 数 情况 下 
会 被 裁 纹 挥 ， 导 致 案 引 项 为 室 ， 而 以 单词 为 中 心 的 索引 裁 衣 则 能 控制 索 
引 项 个 数 ， 以 保证 单词 的 索引 项 不 空 ， 所 以 是 比 以 文档 为 中 心 的 索引 裁 
前 更 常用 的 方法 。 


本 章 提 要 


搜索 引擎 索引 压缩 包括 对 词典 的 压 纵 和 对 倒 排列 表 的 压缩 。 

针对 倒 排 列表 的 压缩 可 分 为 无 损 压缩 和 有 损 压 缩 两 种 ， 无 损 压 
缩 更 常用 些 ， 有 损 压 缩 只 在 特殊 场合 使 用 。 

一 元 编码 和 二 进 制 编码 是 所 有 倒 排 列表 压缩 算法 的 基本 构件 ， 
不 论 具 体 压 缩 算 法 如 何 ， 最 终 都 要 落实 到 这 两 种 方法 上 。 

常用 的 压缩 算法 包括 : Elias Gamma 算 法 、Elias Delta 算 法 、 
Golomb 算 法 、Rice 算 法 、 变 长 字 节 算法 、SimpleX 系 列 算法 和 PForDelta 
算法 ， 在 实际 使 用 中 往往 会 混合 采用 不 同 算法 来 获得 更 好 的 压缩 效果 。 

文档 D 重 排序 通过 文档 聚 类 并 重 排 文档 ID 编 号 来 获得 较 高 的 索 
引 压 缩 率 。 





























毅 态 索引 裁 缠 是 一 种 有 损 压 缩 算法 ， 通 过 抛弃 一 部 分 个 重要 的 
索引 项 来 获得 较 好 的 压缩 效 宁 。 
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第 5 章 ” 检 索 模 型 与 搜索 排序 


“得 意 贤 十 不 可 不 举 ， 不 得 意 贤 十 不 可 不 举 ， 尚 欲 祖 述 阁 、 肥 、 融 、 汤 
之 道 ， 将 不 可 以 不 尚 贤 。 夫 尚 贤 者 ， 政 之 本 也 。” 
PY 黑子 《 尚 员 上 第 八 》 

















搜索 结果 排序 是 搜索 引擎 最 核心 的 构成 部 分 ， 很 大 程度 上 决定 了 搜 
索引 擎 的 质量 好 坏 及 用 户 接受 与 否 。 尽 管 搜索 引擎 在 实际 结果 排序 时 融 
合 了 上 特种 排序 因子 ， 但 最 重要 的 两 个 因素 还 是 用 户 查 询 和 网 页 的 内 容 
相关 性 及 网 页 链接 情况 ， 关 于 网 页 链接 分 析 算 法 在 本 书 第 6 章 有 详 述 ， 
本 章 主 要 介绍 的 是 : 给 定 用 户 搜 索 词 ， 如 何 从 内 容 相关 性 的 角度 对 网 页 
进行 排序 。 

判断 网 页 内 容 是 否 与 用 户 伍 询 相 天， 这 依赖 于 搜索 引擎 所 采用 的 检 
索 模 型 。 关 于 检索 模型 的 研究 ， 从 信息 检索 学 科 建 立 之 初 就 一 下 是 研 完 
重点 ， 到 目前 为 止 ， 已 经 提出 了 多 种 各 腊 的 模型 ， 本 章 将 介绍 其 中 最 重 
要 的 几 种 检索 模型 :布尔 模型 、 向 量 空 间 模 型 、 概 率 模 型 、 语 言 模 型 及 
最 近 几 年 兴起 的 机 器 学 习 排 序 算法 。 

尽管 检索 模型 多 种 多 样 ， 但 其 在 搜索 引擎 中 所 处 的 位 置 和 功能 是 相 
同 的 ， 图 5-1 给 出 了 一 个 搜索 引擎 计算 内 容 相 似 性 的 框架 。 当 用 户 产生 
了 信息 需求 后 ， 构 造 得 询 词 ， 以 此 作为 信息 需求 的 具体 体现 ， 搜 索引 擎 
在 内 部 会 对 用 户 的 查询 词 构造 内 部 的 碍 询 表示 方法 。 对 于 海量 的 网 页 或 
者 文档 集合 ， 对 每 个 文档 ， 在 搜索 系统 内 部 也 有 相应 的 文档 表示 方法 。 
搜索 引擎 的 核心 是 判断 哪些 文档 是 和 用 户 需求 相关 的 ， 并 按照 相关 程度 
排序 输出 ， 所 以 相关 度 计算 古 将 用 户 碍 询 和 文档 内 容 进 行 匹配 的 过 程 ， 
而 检索 模型 就 是 用 来 计算 内 容 相 关 度 的 理论 基础 及 核心 部 件 。 




































































exam he 


检索 模型 





用 户 检索 结果 


文档 表示 


图 5-1 内 容 相似 性 计算 框架 


什么 样 的 检索 模型 是 个 好 模型 呢 ? 用 户 发 出 查询 词 Q 后 ， 我 们 可 以 
把 要 搜 索 的 文档 集合 按 照 "是 侣 相关 ”及 “是 侣 包含 查询 词 ?两 个 维度 ， 将 
其 划分 为 4 个 象限 (参见 图 5-2〉 ， 其 中 ， 第 一 象限 的 文档 出 现 了 用 户 伍 
询 词 同 时 被 用 户 判 定 为 相关 的 ; SINCE AFLP NL 
BOP ABTA AH OSEN ; FE BOR A CAS HBL A Ee ve a) 4 A 
为 不 相关 的 ;而 第 四 象限 的 文档 则 是 不 包含 用 户 碍 询 词 且 被 用 户 判断 为 
不 相关 的 。 一 个 好 的 检索 模型 应 该 做 到 的 是 : 在 排序 结果 中 ， 提 升 第 一 
象限 和 第 二 象限 文档 的 排名 ， 抑 制 第 三 象限 和 第 四 象限 文档 的 排名 。 














r a 


包含 查询 词 | 不 包含 查询 词 











图 5-2 文档 划分 的 4 个 象限 


读者 看 图 5-2 可 能 会 产生 疑问 : 如 果 文 档 不 包含 查询 词 ， 会 是 相关 
的 搜索 结果 吗 ? 答案 很 明显 是 肯定 的 ， 比 如 用 户 搜索 “电脑 ”， 如 果 一 个 
文档 没有 出 现 过 这 个 单词 ， 但 是 出 现 了 “PC” 或 者 “计算 机 ”， 那 也 是 相关 
的 。 人 至 于 人 处理 此 种 情况 ， 往 往 是 查询 扩展 技术 或 者 语义 搜索 讨论 的 范 
图 ， 目 前 绝 大 多 数 检索 模型 考虑 的 文档 对 象 主 要 是 第 一 象限 和 第 三 象限 
的 对 象 ， 即 一 定 出 现 搜索 词 的 文档 。 

这 里 需要 注意 的 一 点 是 : 检索 模型 理论 研究 都 存在 理想 化 的 隐 舍 假 
设 ， 即 假设 用 户 需 求 已 经 通过 会 询 非 第 清晰 明确 地 被 表达 出 来 ， 所 以 检 
索 模 型 的 任务 不 牵扯 到 对 用 户 需求 建 模 。 很 明显 这 与 事实 相距 其 远 ， 即 
使 是 相同 的 碍 询 词 ， 不 同 用 户 的 需求 目的 可 能 差异 很 大 ， 而 检索 模型 对 
此 无 能 为 力 。 所 以 可 以 将 检索 模型 看 做 是 : 在 用 户 需求 已 经 很 明确 地 由 
查询 词 表 征 的 情况 下 ， 如 何 找 出 内 容 相 关 的 文档 。 如 有 果 碍 询 词 不 能 精确 
代表 用 户 真实 需求 ， 那 么 无 论 检索 模型 再 优秀 也 无 济 于 事 ， 这 是 为 何 搜 
索引 擎 发 展 到 目前 阶段 ， 重 点 转向 了 填补 用 户 真 实 需 求 和 发 出 的 查询 词 
之 间 的 鸿沟 的 原因 ， 此 发 展 趋势 有 其 必然 性 。 









































5.1 布尔 模型 (Boolean Model) 








布尔 模型 是 检索 模型 中 最 简单 的 一 种 ， 其 数学 基础 是 集合 论 。 在 布 
尔 模型 中 ， 文 档 与 用 户 查 询 由 其 包含 的 单词 集合 来 表示 ， 两 者 的 相似 性 
则 通过 布尔 代数 运算 来 进行 判定 。 

用 户 查 询 一 般 使 用 逻辑 表达 式 ， 即 使 用 “与 / 或 / 非 > 这 些 逻 辑 连 接 词 
将 用 户 的 查询 词 串 联 ， 以 此 作为 用 户 的 信息 需求 的 表达 。 比 如 用 户 希 望 
查找 和 苹果 公司 相关 的 信息 ， 可 以 用 以 下 逻辑 表达 式 来 作为 查询 : 

苹果 AND (乔布斯 OR iPad2) 

其 代表 的 含义 是 : 如 果 一 篇 文档 包含 单词 “苹果 ”， 同 时 也 包含 单 
词 “ 乔 布 斯 * 或 者 “iPad2” 两 者 其 中 的 任意 一 个 ， 那 么 这 个 文档 就 是 满足 用 
ee ee eee 
日 天 的 。 

我 们 以 具体 例子 来 说 明 ， 图 5-3 是 一 个 文档 集合 ， 其 中 包含 5 个 文 
档 ， 每 个 文档 的 内 容 在 图 5-3 中 都 已 标 出 。 为 了 简单 起 见 ， 我 们 只 考 
处“ 苹果 ”、“ 乔 布 斯 "和 “iPad2” 这 3 个 单词 ， 在 搜索 系统 内 部 ， 单 词 一 文 
档 和 矩阵 如 图 5-4 所 示 ， 其 代表 的 含义 是 单词 出 现在 哪些 文档 中 ， 比 如 对 
于 单词 “苹果 ”来 说 ， 文 档 D2、D3、D5 包 含 这 个 单词 ， 在 图 中 以 对 钓 来 
表达 这 一 状况 ， 其 他 单词 文档 关系 与 此 类 似 。 


D ls FPA BPI HS WE Ns A HUY 
D2: 分 析 师 称 华 果 今 年 仍 将 占据 大 多 数 触 摸 屏 产能 。 
D3: 蕴 果 公司 首席 执行 官 史 蒂 夫 。 乔 布 斯 宣布, iPad2 将 于 3 月 11 日 在 美国 上 市 。 























D4: 乔布斯 推动 了 世界 , iPod、ipPhone、ipPad、ip ad ， 一 款 一 款 接连 不 断 。 
D5: 乔布斯 出 门 买 了 四 袋 苹果 。 





图 5-3 文档 集合 





Q= AND ( 乔布斯 OR iPad2) 





图 5-4 单词 一 文档 矩阵 


假设 此 时 搜索 系统 接收 到 了 用 户 查 询 :“ 蔷 果 AND (乔布斯 OR 
iPad2) ”, 搜索 系统 会 检查 单词 一 文档 矩阵 ， 找 出 满足 这 个 逻辑 表达 式 
的 文档 。 对 于 逻辑 表达 式 “ (乔布斯 OR iPad2) ”来 讲 ， 其 含义 是 : 文档 
需要 包含 单词 “乔布斯 ?或 者 单词 *iPad2” 中 任意 一 个 。 从 单词 一 文档 矩阵 
可 以 看 出 ， 满 足 这 个 逻辑 条 件 的 文档 包括 D1、D3、D4、D5， 而 包 
售 “ 苹 果 ” 这 个 单词 的 文档 集合 是 D2、D3、D5。 按 照 用 户 查 询 的 要 求 ， 
两 个 集合 求 交集 ， 得 出 D3、D5。 这 两 个 文档 就 是 满足 整个 逻辑 表达 式 
的 文档 ， 将 其 输出 即 为 搜索 结果 。 

由 上 可 看 出 ， 布 尔 模 型 简单 直观 ， 但 是 正 是 因为 其 简单 性 ， 导 致 一 
些 明 显 的 缺点 。 从 上 面 例子 可 以 看 出 ， 只 要 文档 满足 逻辑 表达 式 ， 就 会 
被 认为 是 相关 的 ， 其 他 文档 被 认为 是 不 相关 的 ， 即 其 结果 输出 是 二 元 
的 ， 要 么 相关 要 么 不 相关 ， 至 于 文档 在 多 大 程度 上 和 用 户 查 询 相 关 ， 能 
否 按照 相关 程度 排序 输出 搜索 结果 ? 这 些 布尔 模型 都 无 能 为 力 ， 所 以 无 
法 对 搜索 结果 根据 相关 性 进行 排序 ， 其 搜索 结果 过 于 粗糙 。 同 时 ， 对 于 
普通 用 户 来 说 ， 要 求 其 以 布尔 表达 式 的 方式 构建 查询 ， 无 疑 要 求 过 高 。 











5.2” 问 量 空间 模型 (Vector Space Model) 


器 量 空间 模型 历史 您 入 ， 最 初 由 信息 检索 领域 欧 基 人 Salton 教 授 提 
出 ， 经 过 相关 学 科 几 十 年 的 探索 ， 目 前 已 经 是 非常 成 熟 和 基础 的 检索 模 
型 。 问 量 空间 模型 作为 一 种 文档 表示 和 相似 性 计算 的 工具 ， 不 仅仅 在 搜 
ee 
TL 














5.2.1 文档 表示 


作为 表示 文档 的 工具 ， 癌 量 空间 模型 把 每 个 文档 看 做 是 由 t 维 特征 
组 成 的 一 个 癌 量 ， 特 征 的 定义 可 以 采取 不 同方 式 ， 可 以 是 单词 、 词 组 、 
N-gram 片段 等 多 种 形式 ， 最 常用 的 还 是 以 单词 作为 特征 。 其 中 每 个 特征 
会 根据 一 定 依 据 计算 其 权重 ， 这 t 维 带 有 权重 的 特征 共同 构成 了 一 个 文 
档 ， 以 此 来 表示 文档 的 主题 内 容 。 

图 5-5 展 示 了 4 个 文档 在 3 维 向 量 空间 中 如 何 表示 ， 比 如 对 于 文档 2 来 
说 ， 由 3 个 带 有 权重 的 特征 组 成 {w21,w22,w23}，w21 代 表 了 第 2 个 文档 
的 第 1 维特 征 的 权重 ， 其 他 的 权 值 代表 相似 含义 。 在 实际 应 用 系统 中 ， 
维度 是 非常 高 的 ， 达 到 成 千 上 万 维 很 正常 ， 图 中 为 了 简化 说 明 ， 只 列 出 
3 个 维度 。 在 搜索 这 种 应 用 环境 下 ， 用 户 查 询 可 以 被 看 做 是 一 个 特殊 的 
文档 ， 将 其 也 转换 成 维 的 特征 向 量 。 至 于 特征 的 权 值 如 何 计 算 ， 本 节 
后 面 会 专门 讲述 。 
































图 5-5 Æ E RE p ARR 
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询 ， 通 过 特征 转换 ， 可 以 将 其 转换 为 带 有 权 值 的 癌 量 表示 。 





D4: 乔布斯 推动 了 世界 , iPod, iPhone iPad, iPad2, —#k— MRE. 
D5: 乔布斯 出 门 买 了 四 袋 苹 果 。 


Query: 乔布斯 iPad2. 


转换 为 特征 问 量 


Q uery 0.0 1.2 0.6 


图 5-6 将 文档 转换 为 特征 向 量 





5.2.2 ”相似 性 计算 


将 文档 转换 为 特征 同 量 后 ， 就 可 以 计算 文档 之 间或 者 是 查询 和 文档 
之 则 的 相似 性 了 。 对 于 搜索 排序 这 种 任务 来 说 ， 给 定 用 户 输 入 的 查询 ， 
理论 上 应 该 计算 查询 和 网 页 内 容 之 间 的 “相关 性 ”， 即 文档 是 否 和 用 户 需 
求 相关 ， 之 后 按照 相关 程度 由 高 到 低 排 序 。 疝 量 空间 模型 将 问题 做 了 转 
换 ， 即 以 查询 和 文档 之 闻 的 内 容 相似 性 来 作为 相关 性 的 蔡 代 ， 按 照 文档 
和 查询 的 相似 性 得 分 由 高 到 低 排 序 作 为 搜索 结果 ， 但 是 要 注意 ， 两 者 并 
非 等 同 的 概念 。 

给 定 用 户 查 询 特 征 癌 量 和 文档 特征 同 量 ， 如 何 计 算 其 内 容 相 似 性 ? 
Cosine 相 似 性 是 最 常用 也 是 非常 有 效 的 计算 相似 性 的 方式 。Cosine 相 似 
性 计算 定义 如 下 : 
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Cosine(Q,Di) = -一 -一 一 -一 

2 2 
{2j=1 wiixZi=19/ 


这 个 公式 计算 用 户 碍 询 Q 和 Di; 文档 的 相似 性 ， 公 式 中 的 分 子 部 分 ， 
将 文档 的 每 个 特征 权 值 和 查询 的 每 个 特征 权 值 相 乘 取 和 和， 这 个 过 程 也 叫 
做 求 两 个 回 量 的 点 积 ;， 公式 的 分 母 部 分 是 两 个 特征 癌 量 在 欧式 空间 中 长 
FEW, (EAM AAT RRA. OZ A A ERP IE [ed st SR FE 
做 规范 化 操作 ， 主 要 是 对 长 文档 的 一 种 惩 避 机 制 ， 人 否则 的 话 ， 计 算 结果 
往往 是 长 文档 得 分 较 高 ， 而 这 并 非 因 为 长 文档 与 查询 更 相关 ， 而 是 因为 
其 长 度 较 长 ， 导 致 特征 权 值 比 短文 档 要 大 ， 所 以 加 入 规范 化 操作 抑制 长 
文档 在 排序 中 的 位 置 。 

Cosine 公 式 中 的 规范 化 方法 有 一 个 明显 的 缺陷 ， 即 存在 对 长 文档 的 
过 分 抑制 ， 如 果 同 时 有 相关 的 短文 档 和 长 文档 ， 它 会 使 短文 档 的 相关 上 度 
数值 大 大 高 于 长 文档 的 相关 度数 值 。 设 想 以 下 情况 : 一 篇 短文 档 ， 与 某 
主题 相关 ; 一 篇 长 文档 ， 除 了 与 这 个 主题 相关 之 外 还 讨论 了 多 个 其 他 主 
题 ， 其 中 与 这 个 主题 相关 的 部 分 词 频 与 短文 档 相 仿 。 在 这 种 情况 下 ， 两 
篇 文档 中 有 关 这 个 主题 的 特征 词 的 权 值 大 致 相当 ， 长 文档 由 于 包含 的 索 
引 词 很 多 ， 文 档 回 量 长 度 比 较 大 ， 规 范 化 之 后 有 关 这 个 主题 的 特征 词 的 
权重 会 比 短文 档 小 得 多 。 于 是 ， 经 过 相似 度 计 算 ， 短 文档 得 到 的 相关 度 
数值 会 比 长 文档 高 得 多 。 在 TREC 测 试 任 务 中 可 以 很 清楚 地 观察 到 这 种 
WAR: 使 用 Cosine 规 范 化 方法 ， 对 于 一 个 包含 4 个 词 的 查询 ， 返 回 的 第 1 
个 结果 大 多 数 是 10 个 词 以 下 的 文档 。 

为 了 便于 理解 Cosine 相 似 性 ， 可 以 将 每 个 文档 及 查询 看 做 是 t 维 特征 
空间 中 的 一 个 数值 点 ， 每 个 特征 形成 t 维 空间 中 的 一 个 维度 ， 连 接 特 征 
空间 原点 和 这 个 数值 点 形成 一 个 同 量 ， 而 Cosine 相 似 性 就 是 计算 特征 空 
间 中 两 个 同 量 之 间 的 夹 角 ， 这 个 夹 角 越 小 ， 说 明 两 个 特征 问 量 内 容 越 相 
似 ， 夹 角 越 大 ， 说 明 两 个 同 量 内 容 越 不 同 。 考 虑 一 种 极端 情况 ， 两 个 完 
全 相同 的 文档 ， 其 在 同 量 空间 中 的 两 个 同 量 是 重 登 的 ， 通 过 Cosine 相 似 
性 计算 得 到 的 相似 性 结果 为 1。 

图 5-7 是 上 述 计算 的 一 个 形象 化 示意 图 ， 在 这 个 例子 里 ， 特 征 维度 
为 3， 即 由 “苹果 ”、“ 乔 布 斯 "和 “iPad2”3 个 单词 组 成 特征 空间 ， 每 个 单词 
代表 三 维 空间 中 的 一 个 维度 。 对 于 文档 D4、D5 和 查询 “ 逢 布 斯 
iPad2”， 是 三 维 空间 中 3 个 数值 点 ， 和 坐标 原点 相连 形成 一 个 同 量 。 查 
询 和 文档 的 相似 性 就 是 两 个 加 量 之 间 的 夹 角 大 小 ， 从 示例 中 可 以 看 出 ， 
查询 和 文档 D4 之 间 的 夹 角 要 小 于 与 文档 D5 形成 的 夹 角 ， 这 意味 着 查询 
和 文档 D4 更 相似 些 。 
































D4: 乔布斯 推动 了 世界 ，iPod、 iPhone、iPad、iP ad2 ， 一 款 一 款 接连 不 断 。 
D5: 乔布斯 出 门 买 了 四 袋 苹 果 。 


Query: 乔布斯 iPad2 。 
图 5-7 ”Cosine 相 似 性 图 示 


我 们 以 Cosine 计 算 公 式 来 计算 图 5-6 示 例 中 的 文档 与 查询 的 相似 度 ， 
假设 文档 D4 的 特征 向 量 为 {0.0,0.8,0.5}， 即 对 于 “乔布斯 ?的 这 个 特征 权 
值 是 0.8，“iPad2” 的 特征 权 值 是 0.5， 由 于 D4 中 没有 出 现 “ 人 苹果”， 所 以 对 
应 的 特征 权 值 是 9。 相似 地 ，D5 的 特征 向 量 为 {0.3, 0.8, 0.0}， 用 户 查 
询 “ 乔 布 斯 iPad2” 的 特征 向 量 为 {0.0,1.2,0.6}。 有 了 特征 向 量 ， 可 以 参 
照 Cosine 公 式 ， 计 算出 查询 和 文档 D4、D5 的 相似 性 如 下 : 

0.8 x 1.2 + 0.5 x 0.6 





Cosine (Query, D4) = ———— = 0.79 
i V (0.82 + 0.52) x (1.22 + 0.62) 
| 0.8 x 0.8 
Cosine(Query, D5) = 一 -一 0.25 
V (0.32 + 0.82) x (1.22 + 0.62) 


从 上 述 计算 结果 可 以 看 出 ， 文 档 D4 与 查询 的 Cosine 相 似 性 要 大 于 文 
档 D5 与 查询 的 相似 性 ， 在 搜索 结果 排序 中 ， 会 将 D4 排 在 D5 前 面 。 


5.2.3 ”特征 权重 计算 


文档 和 查询 转换 为 特征 问 量 时 ， 每 个 特征 都 会 赋予 一 定 的 权 值 ， 本 
节令 述 如 何 对 特征 计算 相应 的 权 值 。 在 向 量 空 间 模型 里 ， 特 征 权 值 的 计 
算 框架 一 般 被 称 做 Tf*IDF 框 架 ， 虽 然 具 体 计算 方式 可 以 有 多 种 ， 但 是 大 
都 遵循 这 一 框架 ， 而 这 一 计算 框架 考虑 的 主要 计算 因子 有 两 个 : 词 频 Tf 
和 逆 文 档 频 率 IDF。 


词 频 因子 CTE) 


Tf 计算 因子 代表 了 词 频 ， 即 一 个 单词 在 文档 中 出 现 的 次 数 ， 一 般 来 
说 ， 在 某 个 文档 中 反复 出 现 的 单词 ， 往 往 能 够 表征 文档 的 主题 信息 ， 即 
Tf 值 越 大 ， 越 能 代表 文档 所 反映 的 内 容 ， 那 么 应 该 给 予 这 个 单词 更 大 的 
权 值 。 这 是 为 何 引 入 词 频 作 为 计算 权 值 的 重要 因子 的 原因 。 

具体 计算 词 频 因 子 的 时 候 ， 基 于 不 同 的 出 发 点 ， 可 以 采纳 不 同 的 计 
算 公 式 。 最 直接 的 方式 就 是 直接 利用 词 频 数 ， 比 如 文档 中 某 个 单词 出 现 
过 5 次 ， 就 将 这 个 单词 的 Tf 值 计 为 5。 

一 种 词 频 因 子 的 变 体 计算 公式 是 : 

Wy; =1+log (TE) 


即将 词 频数 值 Tf 取 Log 值 来 作为 词 频 权 值 ， 比 如 单词 在 文档 中 出 现 
过 4 次 ， 则 其 词 频 因子 权 值 是 3， 公 式 中 的 数字 1 是 为 了 平滑 计算 用 的 ， 
因为 如 果 T{ 值 为 1 的 情况 下 ， 取 Log 后 值 为 0， 即 本 来 出 现 了 一 次 的 单 
词 ， 按 照 这 种 方法 计算 会 认为 这 个 单词 从 来 没有 在 文档 中 出 现 过 ， 为 了 
避免 这 种 情形 ， 采 用 加 1 的 方式 来 进行 平滑 。 之 所 以 要 对 词 频 取 Log， 是 
基于 如 下 考虑 : 即使 一 个 单词 出 现 了 10 次 ， 也 不 应 该 在 计算 特征 权 值 
时 ， 比 出 现 1 次 的 情况 权 值 大 10 倍 ， 所 以 加 入 Log 机 制 抑制 这 种 过 大 的 郑 
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这 种 方法 被 称 为 增强 型 规范 化 Tf， 其 中 的 a 是 调节 因子 ， 过 去 经 验 
取 值 0.5， 新 的 研究 表明 取 值 为 0.4 效 果 更 好 。 公 式 中 的 Tf 代表 这 个 单词 
的 实际 词 频数 目 ， 而 Max (TH 代表 了 文档 中 所 有 单词 中 出 现 次 数 最 多 
的 那个 单词 对 应 的 词 频数 目 。 之 所 以 要 如 此 操作 ， 主 要 出 于 对 长 文档 的 


FT, RAVER SCR BUR, GRE SCR AA EE, JUS SCRE A Aaa] AY 
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FA Eta] pR ARR DA SCR Ec re Ve, Se ORS ET ET SO, 
FEHR, ARKE CORA: 同一 个 文档 内 单词 之 间 的 相对 重要 性 。 即 
使 一 个 文档 很 长 ， 单 词 词 频 普 遍 很 高 ， 但 是 除 以 文档 最 高 词 频 ， 那 么 通 
过 这 种 计算 方式 得 出 的 数值 比 短 文档 来 说 并 不 一 定 就 大 。 这 样 束 吻 除 了 
文档 长 度 因素 的 影响 ， 长 文档 和 短文 档 的 词 频 因子 就 成 为 可 比 的 了 。 


逆 文 档 频 紊 因子 CDF) 


词 频 因 子 是 与 文档 密切 相关 的 ， 说 一 个 单词 的 Tf 值 ， 指 的 是 这 个 单 
词 在 某 个 文档 中 的 出 现 次 数 ， 同 一 个 单词 在 不 同文 档 中 Tf 值 很 可 能 不 一 
样 。 而 逆 文 档 频率 因子 IDF 则 与 此 不 同 ， 它 代表 的 是 文档 集合 范围 的 一 
种 全 局 因子 。 给 定 一 个 文档 集合 ， 那 么 每 个 单词 的 IDF 值 束 唯 一 确定 ， 
跟 具 体 的 文档 无 关 。 所 以 IDF 考 虑 的 不 是 文档 本 里 的 特征 ， 而 是 特征 单 
词 之 间 的 相对 重要 性 。 

所 谓 首 文档 频率 因子 IDF， 其 计算 公式 如 下 : 


IDF = eh 
n, 
FCP INR CSR SE A 2D PS CHS, Mn 代表 特征 单词 k 
在 其 中 多 少 个 文档 中 出 现 过 ， 即 文档 频率 。 由 公式 可 知 ， 文 档 频 率 ml. 越 
高 ， 则 其 IDF 值 越 小 ， 即 越 多 的 文档 包含 某 个 单词 ， 那 么 其 IDF 权 值 越 
小 。IDF 有 反映 了 一 个 特征 词 在 整个 文档 集合 中 的 分 布 情况 ， 特 征 词 出 现 
在 其 中 的 文档 数目 越 多 ，IDF 值 越 低 ， 这 个 词 区 分 不 同文 档 的 能 力 越 
莽 。 在 极端 情况 下 ， 考 虑 一 个 在 文档 集合 中 所 有 文档 中 都 出 现 的 特征 
词 “term”， 即 ny 二 N， 这 说 明 无 论 搜索 任何 主题 , “term”" 这 个 词 都 会 出 
现在 所 有 相关 和 不 相关 的 文档 中 ， 因 此 “term” 对 任何 主题 都 没有 区 分 相 
关 文 档 和 不 相关 文档 的 能 力 ， 这 时 “term” 的 IDF 值 为 0。 例 如 ， 在 一 个 有 
关 计 算 机 领域 的 文档 集合 中 ， 特 征 词 “ 电 脑 ” 几 乎 肯定 会 出 现在 所 有 文档 
中 ， 这 时 用 它 进行 搜索 没有 任何 效果 。 但 如 果 男 一 个 文档 集合 中 包括 计 
算 机 领域 相关 的 文档 和 很 多 有 关 经 济 学 的 文档 ， 那 么 在 这 个 集合 中 使 
用 “电脑 ”搜索 计算 机 相关 的 文档 效果 会 比较 好 。 也 就 是 说 ,“ 电 脑 ” 这 个 
特征 词 在 第 1 个 文档 集合 中 区 分 不 同文 档 的 能 力 很 差 ， 在 第 2 个 文档 集合 
中 区 分 能 力 很 强 。 而 IDF 就 是 衡量 不 同 单词 对 文档 的 区 分 能 力 的 ， 其 值 
越 高 ， 则 其 区 分 不 同文 档 差 异 的 能 力 越 强 ， 反 之 则 区 分 能 力 越 弱 。 整 体 












































而 言 ，IDE 的 计算 公式 是 基于 经 验 和 直觉 的 ， 有 研究 者 进一步 分 析 认 
为 : IDF 代 表 了 单词 禹 有 的 信息 量 的 多 少 ， 其 值 越 品 ， 说 明 其 信息 含量 
RE, WRA ME 











Tf*IDEF 框 架 


Tf*IDF 框 以 就 是 结合 了 上 述 的 词 频 因子 和 逆 文 档 频 率 因 子 的 计算 杠 
EE 
HAzNi, BP: 





Weight ord ~ TfxIDF 
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如 果 D 中 茶 个 单词 的 词 频 很 高 ， 而 且 这 个 单词 在 文档 集合 的 其 他 文 
档 中 很 少 出 现 ， 那 么 这 个 单词 的 权 值 会 很 高 。 

如 休 D 中 茶 个 单词 的 词 频 很 高 ， 但 是 这 个 单词 在 文档 集合 的 其 他 文 
档 中 也 经 各 出 现 ， 或 者 单词 词 频 不 高 ， 但 是 在 文档 集合 的 其 他 文档 中 很 
少 出 现 ， 那 么 这 个 单词 的 权 值 一 般 。 

如 果 D 中 茶 个 单词 词 频 很 低 ， 同 时 这 个 单词 在 文档 集合 的 其 他 文档 
中 经 常 出 现 ， 那 么 这 个 单词 权 值 很 低 。 

经 过 儿 十 年 的 不 断 探 索 ， 回 量 空 间 模 型 已 经 相当 成 熟 ， 并 被 各 种 领 
域 三 泛 采 用 。 从 数学 模型 的 角度 看 ， 回 量 空间 模型 简单 直观 ， 用 得 询 和 
文档 之 间 的 相似 性 来 模拟 搜索 中 的 相关 性 。 与 布尔 模型 相 比 ， 也 能 对 文 
档 与 查询 的 相关 性 进行 打分 排序 。 但 是 总 体 而 言 ， 回 量 空间 模型 是 个 经 
验 型 的 模型 ， 是 和 车 和 党 和 经 验 不 断 摸索 完善 的 ， 缺 乏 一 个 明确 的 理论 来 
指导 其 改进 方向 。 


5.3 ”概率 检索 模型 

概率 检索 模型 是 目前 效果 最 好 的 模型 之 一 ， 在 TREC 等 各 种 检索 系 
统 评测 会 议 已 经 证 明了 这 一 点 ， 而 且 okapi BM25 这 一 经 典 概率 模型 计算 
公式 已 经 在 商业 搜索 引擎 的 网 页 排序 中 广泛 使 用 。 
5.3.1 概率 排序 原理 


概率 检索 模型 是 从 概率 排序 原理 推导 出 来 的 ， 所 以 理解 这 一 原理 对 





























于 理解 概率 检索 模型 非常 重要 。 概 率 排 序 原 理 的 基本 思想 是 : 给 定 一 个 
用 户 查 询 ， 如 果 搜 索 系 统 能 够 在 搜索 结果 排序 时 按照 文档 和 用 户 需 求 的 
相关 性 由 高 到 低 排 序 ， 那 么 这 个 搜索 系统 的 准确 性 是 最 优 的 。 而 在 文档 
集合 的 基础 上 尽 可 能 准确 地 对 这 种 相关 性 进行 估计 则 是 其 核心 。 

从 概率 排序 原理 的 表述 来 看 ， 这 是 一 种 直接 对 用 户 需求 相关 性 进行 
建 模 的 方法 ， 这 点 与 向 量 空间 模型 不 同 ， 向 量 空间 模型 是 以 查询 和 文档 
的 内 容 相似 性 来 作为 相关 性 的 代替 品 。 

概率 排序 原理 只 是 一 种 指导 思想 ， 并 未 阐述 如 何 才能 做 到 这 种 理想 
的 情形 ， 在 这 个 框架 下 ， 怎 样 对 文档 与 用 户 需 求 的 相关 性 建立 模型 呢 ? 
用 户 发 出 一 个 查询 请 求 ， 如 果 我 们 把 文档 集合 划分 为 两 个 类 别 : 相关 文 
档 子 集 和 不 相关 文档 子 集 ， 于 是 就 可 以 将 这 种 相关 性 衡量 转换 为 一 个 分 
类 问题 。 

图 5-8 示 意 了 概率 模型 作为 一 个 分 类 问题 ， 对 于 某 个 文档 D 来 说 ， 如 
果 其 属于 相关 文档 子 集 的 概率 大 于 属于 不 相关 文档 子 集 的 概率 ， 我 们 就 
可 以 认为 这 个 文档 与 用 户 查询 是 相关 的 。 图 中 的 P R|D 代表 给 定 一 
个 文档 D 对 应 的 相关 性 概率 ， 而 P CNR|D) 则 代表 该 文档 的 不 相关 概 
率 。 即 如 果 P (R|D) >P (CNR|D) ， 我 们 可 以 认为 文档 与 用 户 查 询 是 


相关 的 。 
( 相关 文档 > 



























乔布斯 推动 了 世界 ， 
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P(NRID) 不 相关 文档 





图 5-8 ”概率 模型 是 一 个 分 类 问题 


所 以 现在 问题 的 关键 是 如 何 估算 P (R|D) MP (NR |D) 的 数值 。 
为 了 简化 问题 ， 首 先 我 们 根据 贝 叶 斯 规则 对 两 个 概率 值 进 行 改写 ， 即 : 


P(D|R)P(R) 


P(RD) = 
P(NRID) = OMRON 


相关 性 计算 的 目的 是 要 判断 是 否 P (R|D) >P CNR|D) ， 将 改写 
公式 代入 成 为 如 下 形式 : 
P(D|R)P(R) 、 P(DINR)P(NR) 


P(RID) > P(NRID) <=> ~ = 


因为 是 同一 篇 文 要 ， 所 以 右 端 公式 的 分 母 P (CD) 是 相同 的 ， 在 做 
相关 性 判断 的 时 候 可 以 消 挥 ， 并 对 因子 移 项 ， 转 换 成 如 下 形式 : 
P(DIR)P(R) 、 P(DINR)P(NR) P(DIR) P(NR) 
Se Ny ey 
P(D) P(D) P(D|NR) P(R) 
尽管 概率 模型 将 相关 性 判断 转换 为 一 个 二 值 分 类 问题 ， 但 搜索 应 用 
并 不 需要 进行 真正 的 分 类 ， 而 是 将 搜索 结果 按照 相关 性 得 分 由 高 到 低 排 


序 ， 所 以 对 于 搜索 系统 来 说 只 需要 将 文档 按照 了 大 小 降序 排列 即 


可 ， 于 是 问题 进一步 转换 成 如 何 估算 因子 P (D |R) 和 P (D|NR) ,而 
二 元 独立 模型 提供 了 计算 这 些 因子 的 框架 。 











5.3.2 ”二 元 独立 模型 (Binary Independent Model) 


为 了 能 够 使 得 估算 上 述 两 个 计算 因子 可 行 ， 二 元 独立 模型 CBIM AR 
AY) 做 出 了 两 个 假设 : 


所 谓 二 元 假设 ， 类 似 于 布尔 模型 中 的 文档 表示 方法 ， 一 篇 文档 在 由 
特征 进行 表示 的 时 候 ， 以 特征 “出 现 ? 和 * 不 出 现 ? 两 种 情况 来 表示 ， 不 考 
虑 词 频 等 其 他 因素 。 假 设 特征 集合 包含 5 个 单词 ， 某 个 文档 D 根 据 二 元 
假设 ， 表 示 为 {10,1,0,1}， 其 含义 是 这 个 文档 出 现 了 第 1 个 、 第 3 个 和 第 5 
个 单词 ， 但 是 不 包含 第 2 个 和 第 4 个 单词 。 做 出 二 元 假设 是 将 复杂 问题 简 
单 化 的 一 种 措施 。 


假设 2: 词汇 独立 性 假设 














所 谓词 汇 独立 性 假设 ， 是 指 文 档 里 出 现 的 单词 之 间 没 有 任何 关联 ， 
任意 一 个 单词 在 文档 的 分 布 概率 不 依赖 于 其 他 单词 是 售 出 现 。 zM 
很 明显 和 事实 不 符 ， 比 如 一 篇 文档 出 现 了 单词 ' FAM, ABA Hh Ese 
果 ”、“ipad” 这 些 单词 的 概率 显然 很 大 ， 即 单词 之 间 是 有 依赖 性 的 ， 但 是 
为 了 简化 计算 ， 很 多 方法 都 会 做 出 词汇 独立 性 假设 。 有 了 词汇 独立 性 假 
设 ， 我 们 就 可 以 将 对 一 个 文档 的 概率 估计 转换 为 对 文档 包含 单词 的 概率 
估计 ， 因 为 词汇 之 间 没 有 关联 ， 所 以 可 以 将 文档 概率 转换 为 单词 概率 的 


积 。 











在 以 上 两 个 前 提 假 设 下 ， Poor n CD |R) 
FIP (D| NR) 进行 估算 ， 在 进行 形式 化 描述 前 ， 我 们 举 个 简单 的 例 
Te 

上 文 提 到 的 文档 DD 表示 为 {1,0,1,0,1}， 我 们 用 p; 来 代表 第 i 个 单词 在 
相关 文档 集合 内 出 现 的 概率 ， 于 是 在 已 知 相关 文档 集合 的 情况 下 ， 观 察 
到 文档 DD 的 概率 为 : 

P(DIR) =p, X (1—p,) Xp; X (1—p,) X P; 

因为 在 文档 中 出 现 了 第 1 个 、 第 3 个 和 第 5 个 单词 ， 所 以 这 些 单词 在 
相关 文档 集合 中 出 现 的 概率 为 p; ， 而 第 2 个 和 第 4 个 单词 没有 出 现 ， 那 么 
1-pi 就 代 表 了 单词 不 在 文档 出 现 的 概率 ， 根 据 词汇 独立 性 假设 ， 将 对 文 
a eee R, ROPER AT Whe A 
P (D|R) 。 

对 于 因子 P CD |NR) ， 我 们 假设 用 si 代表 第 i 个 单词 在 不 相关 文档 
集合 内 出 现 的 概率 ， 于 是 在 已 知 不 相关 文档 集合 的 情况 下 ， 观 察 到 文档 
P(DINR) = s1 X (1 — S2) X s3 X (1 — S4) X S5 

两 个 因子 已 经 估算 完毕 ， 于 是 我 们 可 以 估算 二 > ， 即 ; 

P(DINR) 
P(DIR) _ pıx(1-p2)xp3x(1-p4)xps 
P(DINR) _ $1 X(1-s2)xs3 X(1-s4) X55 
如 果 可 以 从 文档 集合 估计 p; 和 si ， 那 么 我 们 就 可 以 对 文档 的 相关 性 


a 这 是 一 个 具体 的 实例 ， 下 面 我 们 用 形式 化 方式 表示 如 何 
算 


P(DINR) ` 




















= [fx PT 
P(DINR) Lis, 1L1l1-s; 
L:dj=1 i:di=0 
这 个 公式 与 上 面 实例 所 列 公式 含义 相同 ， 只 不 过 将 各 个 计算 因子 归 
为 两 个 部 分 ， 其 中 [Tia =i 代表 了 在 文档 D 中 出 现 过 的 各 个 单词 的 概率 乘 
积 ，[Tia =o 则 代表 了 没有 在 文档 D 中 出 现 的 各 个 特征 单词 的 概率 乘积 。 
进一步 对 这 个 公式 进行 一 些 数学 等 价 变换 ， 可 得 : 


P(DIR) _ Pe, illic Ff eg } 
| | Si 1 一 Pi [| 1 一 Si | | 1 一 Si 
i:dj=1 i:dj=1 | i:dj=0 


i:dj=1 

















(ggs 
-Pi ae” moe 


一 :di 一 








B pi (1—s;2 1— pi; 
"i (1 — pi?) el lis 
即将 计算 公式 分 解 为 两 个 组 成 部 分 ， 第 1 个 组 成 部 分 [liai=i 代表 在 
文档 中 出 现 过 的 单词 所 计算 得 到 的 单词 概率 乘积 ， 第 2 个 部 分 [Ti; 代表 对 
所 有 特征 词 计算 所 得 到 的 单词 概率 乘积 。 因 为 p; 和 si 是 从 相关 文档 和 不 
B u 所 以 与 具体 文档 无 关 ， 这 说 明 对 
于 所 有 文档 来 说 第 2 个 部 分 得 分 都 一 样 ， 所 以 在 排序 中 不 起 作用 ， 于 是 
可 以 将 这 个 部 分 消 挥 ， pee 终 的 相关 性 估算 公式 : 
P(DIR) m pi(1—s) 


P(DINR) 11 s(- p) 














出 于 计算 方便 ， 可 以 对 上 述 公 式 取 log 值 ， 得 到 如 下 相关 性 估 值 公 


IN: 


(1-si) 
log?" i 
Sid 8 Samp 

到 目前 为 止 ， 我 们 已 经 获得 了 计算 相关 性 的 具体 方法 ， 剩 下 的 问题 
就 是 如 何 计算 单词 概率 pi 和 si 。 给 定 用 户 查 询 ， 如 果 我 们 可 以 确定 哪些 
文档 构成 了 相关 文档 集合 ， 哪 些 文 档 构 成 了 不 相关 文档 集合 ， 可 以 利用 
下 表 所 列 数据 来 估算 单词 概率 : 


相关 文档 不 相关 文档 文档 数量 
d;= 1 t; nt; Ni 
d;=0 R-r; (N-R)-(n; -r;) N-n; 
文档 数量 R N—R N 


表 中 第 3 行 的 N 为 文档 集合 总 共 包 含 的 文档 个 数 ，R 为 相关 文档 的 个 
数 ， 于 是 N 一 R 就 是 不 相关 文档 集合 的 大 小 。 对 于 某 个 单词 d 来 说 ， 假 
设 包含 这 个 单词 的 文档 数量 共有 mi 个 ， 而 其 中 相关 文档 有 ri 个 ， 那 么 不 
相关 文档 中 包含 这 个 单词 的 文档 数量 则 为 n; 一 r; 。 再 考虑 表 中 第 2 列 ， 
因为 相关 文档 个 数 是 R， 而 其 中 出 现 过 单词 d 的 有 ri 个， 那么 相关 文档 
中 没有 出 现 过 这 个 单词 的 文档 个 数 为 R 一 tr 个 ， 同 理 ， 不 相关 文档 中 没 
有 出 现 过 这 个 单词 的 文档 个 数 为 CN 一 R) 一 Cni 一 ni; ) 个 。 从 表 中 可 以 
看 出 ， 如 果 我 们 假设 已 经 知道 N、R、m 、 的 话 ， 其 他 参数 是 可 以 靠 这 
4 个 数值 推导 出 来 的 。 

根据 表格 数据 ， 即 可 估算 s; 和 pi 。s; 因为 pi 代表 第 i 个 里 词 在 相关 文 
档 集 合 内 出 现 的 概率 ， 在 BIM 模 型 的 二 元 假设 下 ， 可 以 用 包含 这 个 单词 
的 相关 文档 个 数 r; 除 以 相关 文档 总 数 R 来 估算 ， 即 Pi 二 ri /R。 而 si 代表 第 
i 个 单词 在 不 相关 文档 集合 内 出 现 的 概率 ， 所 以 可 以 用 包含 这 个 单词 的 
不 相关 文档 个 数 n; 一 r; 除 以 不 相关 文档 总 数 CN 一 R) 来 估算 ， 即 si =n; 
一 ri/ CNR) 。 把 这 两 个 估 值 公式 代入 相关 性 估 值 公式 即 可 得 出 如 何 
计算 相关 性 ， 但 是 这 里 有 个 问题 ， 相 关 性 估 值 公式 采取 了 log 形 式 ， 如 
Ar, 二 0， 那 么 会 出 现 log (0) 的 情形 ， 为 了 避免 这 种 情况 ， 我 们 对 pi 和 
si 的 估 值 公式 进行 平滑 ， 分 子 部 分 加 上 0.5， 分 母 部 分 加 上 1.0， 即 : 


Pi = (r; + 0.5)/(R + 1.0) 
Si = (n, — r; + 0.5)/(N — R + 1.0) 

















将 这 两 个 估 值 因子 代入 相关 性 估算 公式 ， 得 到 如 下 公式 : 


| (7; + 0.5)/(R ams + 0.5) 
Fy a (ni — 7; + 0.5)/((N — R) — (ni — r;) + 0.5) 





其 代表 的 合 义 是 : XT EN EIEH P AWM ADE A) ie , 
AES ie a, Ae CDA EA FA ERE ae. BRNE 
TOA ITA HE Se A A Eva SCS ARE TI, MOR A 
事先 不 知道 哪些 是 相关 文档 ， 哪 些 是 不 相关 文档 ， 可 以 给 公式 的 估算 因 
子 赋 予 固定 值 ， 此 种 情况 下 该 公式 等 价 于 在 癌 量 空间 模型 中 所 到 的 IDF 
因子 。 各 种 实验 表明 ， 根 据 二 元 独立 模型 计算 相关 性 实际 效果 并 不 好 ， 
但 是 这 个 模型 却 是 非 第 成 功 的 概率 模型 方法 BM25 的 基础 ， 这 是 为 何 本 
节 花 较 大 篇 幅 介 绍 BIM 模 型 的 原因 。 








5.3.3 BM25 模 型 


BIM 模 型 基于 二 元 假设 推导 而 出 ， 即 对 于 单词 特征 ， 只 考虑 是 否 在 
文档 中 出 现 过 ， 而 没有 考虑 单词 的 权 值 。BM25 模 型 在 BIM 模 型 基础 
上 ， 考 虑 了 单词 在 查询 中 的 权 值 及 单词 在 文档 中 的 权 值 ， 拟 合 出 综合 
述 考虑 因素 的 公式 ， 并 通过 实验 引入 一 些 经 验 参 数 。BM25 模 型 是 目前 
最 成 功 的 内 容 排 序 模型 。 

图 5-9 展 示 了 BM25 模 型 的 具体 计算 公式 ， 对 于 查询 Q 中 出 现 的 每 个 
查询 词 ， 依 次 计算 单词 在 文档 DD 中 的 分 值 ， 囚 加 后 就 是 文档 DD 与 查询 Q 的 
相关 性 得 分 。 从 图 中 可 以 看 出 ， 计 算 第 i 个 查询 词 的 权 值 时 ， 计 算 公 式 
可 以 拆 解 为 3 个 组 成 部 分 ， 第 1 个 组 成 部 分 就 是 上 节 所 述 的 BIM 模 型 计算 
得 分 ， 上 节 也 提 到 ， 如 果 赋 予 一 些 默认 值 的 话 ， 这 个 部 分 的 公式 等 价 于 
IDF 因 子 的 作用 ;第 2 个 组 成 部 分 是 查询 词 在 文档 D 中 的 权 值 ， 其 中 f 代 
表 了 单词 在 文档 D 中 的 词 频 ，ki; 和 K 是 经 验 参 数 ， 第 3 个 组 成 部 分 是 查询 
词 自身 的 权 值 ， 其 中 gf; 代表 查询 词 在 用 户 查 询 中 的 词 频 ， 如 果 查 询 较 
短小 的 话 ， 这 个 值 往往 是 1，k, 是 经 验 参 数 。BM25 模 型 就 是 融合 了 这 3 
个 计算 因子 的 相关 性 计算 公式 。 


























查询 词 文档 权 值 


y log (ri+0.5)/(R-r:+0.5) | (kı+1)fi , (k2+1)qfi 
iEQ 日 mi—ri+0.5)/(N-n:-R+r:+0.5) K+ fi kə+qfi 
\ 
\ 
二 元 独立 模型 \ — 
\ 
\ 


dl 
K = k ((l-—b)+b-—— 
((1-—b) avd)? 





图 5-9 BM25 计 算 公 式 


在 第 2 个 计算 因子 中 ，K 因 子 代表 了 对 文档 长 度 的 考虑 ， 图 中 所 示 K 
的 计算 公式 中 ，d 代 表 文 档 D 的 长 度 ， 而 avdl 则 是 文档 集合 中 所 有 文档 
的 平均 长 度 ，k 和 b 是 经 验 参数 。 其 中 参数 b 是 调节 因子 ， 极 端 情况 下 ， 
将 b 设 定 为 0， 则 文档 长 度 因素 将 不 起 作用 ， 经 验 表明 一 般 将 b 设 定 为 
0.75 会 获得 较 好 的 搜索 效果 。 

BM25 公 式 中 包含 3 个 自由 调节 参数 ， 除 了 调节 因子 b 外 ， 还 有 针对 
词 频 的 调节 因子 ki Miky 。k 的 作用 是 对 查询 词 在 文档 中 的 词 频 进行 调 
节 ， 如 果 将 ki 设 定 为 0， 则 第 2 部 分 计算 因子 成 了 整数 1， 即 不 考虑 词 频 
的 因素 ， 退 化 成 了 BIM 模 型 。 如 果 将 ki 设 定 较 大 值 ， 则 第 2 部 分 计算 因 
子 基 本 和 词 频 f 保持 线性 增长 ， 即 放大 了 词 频 的 权 值 ， 根 据 经 验 ， 一 般 
将 ki 设 定 为 1.2。 调 节 因子 ky 和 ki 的 作用 类 似 ， 不 同 点 在 于 其 是 针对 查 
询 中 的 词 频 进 行 调 节 ， 一 般 将 这 个 值 设 定 在 0 到 1000 较 大 的 范围 内 ， 之 
所 以 如 此 ， 是 因为 查询 往往 很 短 ， 所 以 不 同 查询 词 的 词 频 都 很 小 ， 词 频 
之 问 差异 不 大 ， 较 大 的 调节 参数 数值 疫 定 苑 围 允 许 对 这 种 差异 进行 




















综合 来 看 ，BM25 模 型 计算 公式 其 实 融合 了 4 个 考虑 因素 : IDF 因 
子 、 文 档 长 度 因子 、 文 档 词 频 和 查询 词 频 ， 并 利用 3 个 自由 调节 因子 
(ky ky FID) 对 各 种 因子 的 权 值 进行 调整 组 合 。 


下 面 我 们 以 用 户 碍 询 “ 乔 布 斯 Pad2” 为 例子 ， 来 看 看 如 何 实际 利 用 
BM25 公 式 计 算 茶 个 文档 D 的 相关 性 。 首 先 假定 BM25 的 第 1 个 计算 因子 
中 ， 我 们 不 知道 哪些 是 相关 文档 ， 所 以 将 相关 文档 个 数 R 和 包含 查询 词 
的 相关 文档 个 数 r 设 定 为 0%， 此 时 第 1 个 计算 因子 退化 成 类 似 于 IDF 的 形 





xt: 
(0+0.5)/(0—0+0.5) (N —n, + 0.5) 
log 一 一 一 一 一 一 一 一 一 一 一 一 <=> log 一 一 一 一 
n, —-0+0.5/((N —0)—(n, —0)+0.5) (n, + 0.5) 
因为 查询 中 两 个 查询 词 都 只 出 现 了 一 次 ， 所 以 其 对 应 的 都 为 1。 其 
他 数值 假定 如 下 : 
SCR SEG BIN = 100000 
文档 集合 中 包含 单词 “乔布斯 ”的 文档 个 数 n 秒 布 斯 = 1000 
文档 集合 中 包含 单词 “ipPad2” 的 文档 个 数 nipu =100 
文档 马 中 出 现 单 词 “乔布斯 * 的 词 频 f 示 布 斯 二 8 
文档 D 中 出 现 单词 Pad2” 的 词 频 fp iv 二 5 
调节 因子 三 1.2 
调节 因子 三 200 
调节 因子 b= 二 0.75 
假定 文档 长 度 是 平均 文档 长 度 的 1.5 倍 ， 即 K==1.2x (0.25 十 
0.75x1.5) 二 1.65， 将 这 些 数 值 代入 BM25 计 算 公 式 ， 可 以 得 出 文档 DD 和 
查询 的 如 下 相关 性 得 分 : 





























100000-1000+0.5 (1.2+1)x8 (200+1)x1 
BM25( "Før iPad2” ,D) =Log ——————————__ x x 
1000+0.5 1.65+8 200+1 
100000-100+0.5 (1.2+1)x5 (200+1)x1 
PAS ESEN s ‘i 
100+0.5 1.6545 200+1 


=8.59 
对 于 文档 集合 里 的 所 有 文档 ， 都 按照 上 述 方法 计算 ， 将 计算 结 采 按 
照 大 小 排序 ， 就 根据 BM25 公 式 得 出 了 内 容 相关 性 排序 。 


5.3.4 ”BM25F 模 型 


Okapi BM25 模 型 于 1994 年 提出 ， 之 后 被 广泛 研究 并 应 用 在 不 同系 
统 里 ， 也 陆续 有 在 此 基础 上 的 改进 算法 出 现 。2004 年 推出 的 BM25F 模 型 


就 是 一 个 很 典型 的 BM25 改 进 算法 。 
BM25 模 型 在 计算 一 个 文档 和 查询 的 相关 性 的 时 候 ， 是 把 文档 当做 
一 个 整体 来 看 待 的 ， 但 是 在 有 些 应 用 场景 下 ， 需 要 将 文档 内 容 切 制 成 不 
同 的 组 成 部 分 ， 然 后 对 不 同 成 分 分 别 对 等。 最 典型 的 应 用 场景 就 是 网 页 
搜索 ， 一 个 网 页 由 页 面 标 题 、Meta 描 述 信息 、 页 面 内 容 等 不 同 
的 “ 域 ”(Field) 构成 ， 在 计算 内 容 相关 性 得 分 的 时 候 ， 往 往 希 望 标题 的 
权重 大 些 ， 因 为 标题 是 一 个 网 页 的 中 心思 想 简 述 。 而 BM25 由 于 没有 考 
虑 这 点 ， 所 以 不 容易 做 到 不 同 “ 域 ”的 内 容 给 予 不 同 权 重 ，BM25F 就 非常 
适合 这 种 将 文档 划分 为 若干 “ 域 "， 不 同 “ 域 ”需要 不 同 权 值 的 应 用 场景 。 
BM25F 思 路 如 上 ， 但 是 不 同系 统 有 各 异 的 具体 计算 方法 ， 本 节 叙 述 
其 中 的 一 种 ， 为 了 让 公式 看 起 来 简洁 一 些 ， 我 们 用 W | 代替 BIM 推 导 
出 的 部 分 ， 也 即 BM25 公 式 的 第 1 个 组 成 部 分 : 
(7; + 0.5)/(R = ri + 0.5) 




















RSJ _ 一 一 
a og (ni — ri + 0.5)/((N — R) — (ni — ri) + 0.5) 
BM25F 的 计算 公式 如 下 : 
Menig 
i:qj=dj=1 $ i 


BM25F 公 式 与 BM25 的 区 别 体 现在 第 2 个 计算 因子 中 的 大 上 ， 这 个 
因子 综合 了 第 i 个 单词 出 现在 不 同 “ 域 ”的 得 分 ， 其 定义 如 下 : 


fi = iter We x D 
u 





uly 


B = (U1 — bu) + bg X 





E a 

假设 一 个 文档 D 包 含 了 u 个 不 同 的 “ 域 "， 而 每 个 “ 域 * 的 权 值 设 定 为 
Wo fi 将 第 i 个 单词 在 各 个 不 同 “ 域 ”的 分 值 fj; /Bu 加 权 求 和 ， 其 中 fi; 代 
表单 词 在 第 u 个 “ 域 " 出 现 的 词 频数 ，Bu 则 是 “ 域 ”长 度 因 素 。 对 于 B 来 
Bi, uly 是 这 个 “ 域 ”的 实际 长 度 ，avul, 是 文档 集合 中 这 个 “ 域 " 的 平均 长 
度 ， 而 bu 则 是 调节 因子 ， 这 里 要 注意 的 一 点 是 : 不 同 的 “ 域 " 要 设 定 不 同 
的 调节 因子 ， 这 样 搜索 效 末 才 好 。 所 以 对 于 BM25F 来 说 ， 除 了 调节 因子 
ky 外 ， 如 末 文 档 包含 a 个 不 同 的 " 域 "， 则 还 需要 和 拖 经 验 设 定 u 个 “ 域 " 权 值 











和 u 个 长 度 调节 因子 。 
5.4 语言 模型 方法 


基于 统计 语言 模型 的 检索 模型 于 1998 年 首次 提出 ， 是 借鉴 了 语音 识 
别 领域 采用 的 语言 模型 技术 ， 将 语言 模型 和 信息 检索 相互 融合 的 结 

从 基本 思路 上 来 说 ， 其 他 的 大 多 数 检索 模型 的 思考 路 径 是 从 查询 到 
文档 ， 即 给 定 用 户 查 询 ， 如 何 找 出 相关 的 文档 。 语 言 模型 方法 的 思路 正 
好 相反 ， 是 由 文档 到 查询 这 个 方向 ， 即 为 每 个 文档 建立 不 同 的 语言 模 
型 ， 判 断 由 文档 生成 用 户 查询 的 可 能 性 有 多 大 ， 然 后 按照 这 种 生成 概率 
由 高 到 低 排序 ， 作 为 搜索 结果 。 

给 定 了 一 篇 文档 和 对 应 的 用 户 查询 ， 如 何 计算 文档 生成 查询 的 概率 
WE? 图 5-10 展 示 了 利用 语言 模型 来 生成 查询 的 过 程 。 首 先 ， 可 以 为 每 个 
文档 建立 一 个 语言 模型 ， 语 言 模型 代表 了 单词 或 者 单词 序列 在 文档 中 的 
分 布 情况 。 我 们 可 以 想象 从 文档 的 语言 模型 生成 查询 类 似 于 从 一 个 装 
满 < 单词 ”的 过 中 随机 抽取 ， 一 次 抽取 一 个 单词 ， 这 样 ， 每 个 单词 都 有 一 
个 被 抽取 到 的 概率 。 对 于 查询 中 的 单词 来 说 ， 每 个 单词 都 对 应 一 个 抽取 
概率 ， 将 这 些 单词 的 抽取 概率 相 乘 就 是 文档 生成 查询 的 总 体 概率 。 



































PCE RID) P( 乔 布 斯 |D) P(iPad2|D) 


毕 a) Setan) iP ada) 





D: 乔布斯 出 门 买 了 4 袋 华 果 
图 5-10 ”文档 生成 查询 


以 网 5-10 中 的 文档 为 例 ， 可 以 看 出 ， 文 档 D 包 含 5 个 单词 { 乔 布 斯 ， 
出 门 ， 买 了 ，4 袋 ， 苹 果 }， 每 个 单词 出 现 次 数 都 是 1 次 ， 所 以 抽取 到 这 5 
个 单词 的 概率 大 小 相同 ， 都 为 0.2， 这 个 单词 抽取 概率 分 布 就 是 文档 D 对 
应 的 一 元 语言 模型 。 为 文档 建立 一 元 语言 模型 后 ， 即 可 计算 文档 DD 生成 
用 户 查 询 { 鞋 果 ， 和 乔布斯，iPad2} 的 概率 : 

P (Q|D) =P CER |D) xP (乔布斯 |D) xP CiPad2|D) =0.2x0.2x0 
=0 


























因为 文档 中 出 现 过 “于 果 ”和 “乔布斯 ”两 个 单词 ， 其 对 应 的 概率 都 为 
0.2， 但 是 由 于 文档 D 没 有 出 现 过 单词 “Pad2”， 所 以 这 个 单词 的 生成 概率 
为 0， 导 致 查询 整体 的 生成 概率 也 为 0。 从 这 个 例子 可 以 看 出 ， 由 于 一 个 
文档 文字 内 容 有 限 ， 所 以 很 多 奋 询 词 都 没有 在 文中 出 现 过 ， 这 会 导致 基 
于 语言 模型 的 检索 方法 失效 ， 这 个 问题 被 称 做 语言 模型 的 数据 黎 玻 问 
题 ， 是 语言 模型 方法 重点 需要 解决 的 问题 。 

一 般 采 用 数据 平 请 的 方式 解决 数据 黎 踊 问题， 所 谓 数据 平滑 ， 可 以 
理解 为 单词 分 布 概率 领域 的 “ 动 富 济贫 ?”， 即 从 文档 中 出 现 过 的 单词 的 分 
布 概率 值 中 取出 一 部 分 ， 将 这 些 值 分 配给 文档 中 没有 出 现 过 的 单词 ， 这 














样 所 有 单词 都 有 一 个 非 零 的 概率 值 ， 避 免 计算 中 出 现 问题 。 

语言 模型 检索 方法 则 是 为 所 有 单词 引入 一 个 背景 概率 来 做 数据 平 
请 。 上 所谓 背景 概率 ， 就 是 给 文档 集合 建立 一 个 整体 的 语言 模型 ， 因 为 其 
规模 比较 大 ， 上 所 以 绝 大 多 数 得 询 词 都 有 一 个 概率 值 。 对 于 文档 集合 的 一 
元 语言 模型 ， 打 个 单词 的 背景 概率 就 是 这 个 单词 出 现 的 次 数 除 以 文档 集 
合 的 单词 总 数 ， 这 与 一 个 文档 计算 语言 模型 是 一 致 的 ， 可 以 将 背景 概率 
的 计算 理解 为 : 将 文档 集合 内 所 有 文档 拼接 成 一 个 虚拟 的 大 文档 ， 然 后 
给 这 个 虚拟 文档 建立 语言 模型 。 所 以 ， 对 于 语言 模型 方法 来 说 ， 如 果 文 
档 集 合 包含 N 个 文档 ， 则 需要 建立 N 十 1 个 不 同 的 语言 模型 ， 其 中 每 个 文 
档 建 立 上 自己 的 语言 模型 ， 而 文档 集合 语言 模型 则 作为 数据 平滑 的 用 处 。 

图 5-11 是 加 入 数据 平滑 后 的 文档 生成 查询 概率 计算 公式 ， 可 以 看 
出 ， 每 个 查询 词 的 生成 概率 由 两 部 分 构成 ， 一 部 分 是 之 前 提 到 的 文档 语 
言 模 型 ， 男 一 部 分 是 用 做 平滑 的 文档 集合 语言 模型 。 两 者 之 间 可 以 通过 
参数 调节 其 权重 。 


PQ|D)(Q|D) = [[;- (1 - d) 44? 十 ATG) 


TT 


文档 语言 模型 ”文档 集合 语言 模型 
图 5-11 文档 生成 查询 概率 计算 


了 解 了 如 何 计算 某 个 文档 生成 查询 的 概率 ， 那 么 如 何 对 文档 按照 相 
关 性 排序 也 就 很 清楚 了。 图 5-12 是 基于 语言 模型 方法 的 检索 系统 对 搜索 
结果 排序 的 示意 图 ， 用 户 提交 但 询 Q， 文 档 集合 内 所 有 文档 部 计算 生成 
Q 的 概率 ， 然 后 按照 生成 概率 值 由 大 到 小 排序 ， 这 惑 是 搜索 结果 。 






















































用 户 查 询 Q 


文档 集合 语言 模型 
( D1, D2, D3) 





图 5-12 语言 模型 排序 


上 述 是 最 基本 的 语言 模型 检索 方法 思路 ， 很 多 研究 在 此 基础 上 做 出 
了 改进 ， 比 如 HMM 隐 马尔 科 夫 语言 模型 、 相 关 模 型 、 翻 译 模 型 等 诸多 
改进 模型 对 基础 模型 做 出 了 改进 。 目 前 各 种 检索 评测 证 明 ， 语 言 模型 检 
0 0 
日 当 。 

语言 模型 检索 方法 从 形式 上 看 与 癌 量 空间 模型 和 概率 模型 有 很 大 差 
异 ， 其 实 它们 之 间 有 密切 联系 。 通 过 理论 推导 ， 可 以 得 出 : 语言 模型 检 
索 方 法 的 排序 公 云 符合 概率 模型 的 概率 排序 原理 ， 所 以 可 以 归 为 概率 模 
型 的 一 种 。 男 外 ， 通 过 一 些 公 式 变 形 推 导 ， 可 以 将 其 公式 转化 为 类 似 于 
| 
1 一致 性 。 








5.5 ”机 器 学 习 排 序 (Learning to Rank) 


利用 机 器 学 习 技 术 来 对 搜索 结果 进行 排序 ， 这 是 最 近 几 年 非 第 热门 
的 研究 领域 。 信 息 检 索 领 域 已 经 友 展 了 几 十 年 ， 为 何 将 机 器 学 习 技术 和 
信息 检索 拉 术 相互 结合 出 现 较 晚 ? 主要 有 两 方面 的 原因 。 

一 方面 是 因为 : 在 前 面 几 市 所 述 的 基本 检索 模型 可 以 看 出 ， 用 来 对 











查询 和 文档 的 相关 性 进行 排序 ， 所 考虑 的 因素 并 不 多 ， 主 要 是 利用 词 
频 、 逆 文档 频率 和 文档 长 度 这 几 个 因子 来 人 工 拟 合 排序 公式 。 因 为 考虑 
因素 不 多 ， 由 人 工 进行 公式 拟 合 是 完全 可 行 的 ， 此 时 机 器 学 习 并 不 能 派 
上 很 大 用 场 ， 因 为 机 器 学 习 更 适合 采用 很 多 特征 来 进行 公式 拟 合 ， 此 时 
各 指望 人 工 将 几 十 种 考虑 因素 拟 合 出 排序 公式 是 不 太 现 实 的 ， 而 机 器 学 
习 做 这 种 类 型 的 工作 则 非常 合适 。 随 痢 搜 索引 擎 的 发 展 ， 对 于 茶 个 网 页 
进行 排序 需要 考虑 的 因素 越 来 越 多 ， 比 如 网 页 的 PageRank 值 、 查 询 和 文 
档 匹 配 的 单词 个 数 、 网 页 URL 链 接地 址 长 度 等 都 对 网 页 排名 产生 影响 ， 
Google 目 前 的 网 页 排序 公式 考虑 了 200 多 种 因子 ， 此 时 机 器 学 习 的 作用 
即 可 发 挥 出 来 ， 这 是 原因 之 一 。 

另外 一 个 原因 是 : 对 于 有 监督 机 器 学 习 来 说 ， 首 先 需 要 大 量 的 训练 
数据 ， 在 此 基础 上 才 可 能 自动 学 习 排序 模型 ， 单 菲 人 工 标 注 大 量 的 训练 
数据 不 太 现实 。 对 于 搜索 引擎 来 说 ， 尺 管 无 法 徘 人 工 来 标注 大 量 训练 数 
据 ， 但 是 用 户 点 击 记录 是 可 以 当做 机 器 学 习 方 法 训练 数据 的 一 个 莹 代 
品 ， 比 如 用 户 发 出 一 个 查询 ， 搜 索引 擎 返回 搜索 结果 ， 用 户 会 扣 击 其 中 
菏 些 网 页 ， 可 以 假设 用 户 点 击 的 网 页 是 和 用 户 碍 询 更 加 相关 的 页 面 。 尽 
管 这 种 假设 很 多 时 候 并 不 成 立 ， 但 是 实际 经 验 表 明 使 用 这 种 点 击 数据 来 
训练 机 器 学 习 系统 确实 是 可 行 的 。 


5.5.1 机 絮 学 习 排 序 的 基本 思路 


传统 的 检索 模型 和 人工 拟 合 排序 公式 ， 并 通过 不 断 的 实验 确定 最 佳 
的 参数 组 合 ， 以 此 来 形成 相关 性 打分 函数 。 机 需 学 习 排 序 与 此 思路 不 
同 ， 最 合理 的 排序 公式 由 机 品目 动 学 习 获 得 ， 而 人 则 需要 给 机 需 学 习 提 
供 训练 数据 。 图 5-13 是 利用 机 器 学 习 进 行 排序 的 基本 原理 图 。 













































































图 5-13 ”机 器 学 习 排 序 原理 


机 需 学 习 排 序 系统 由 4 个 步骤 组 成 : 人工 标注 训练 数据 、 文 档 特 征 
抽取 、 学 习 分 类 函数 、 在 实际 搜索 系统 中 采用 机 器 学 习 模 型 。 

首先 ， 由 人 工 标注 训练 数据 。 也 惑 是 说 ， 对 于 某 个 查询 Q， 人 工 标 
出 哪些 文档 是 和 这 个 查询 相关 的 ， 同 时 标 出 相关 程度 ， 相 关 程 度 有 时 候 
可 以 用 数值 序列 来 表示 ， 比 如 从 1 分 到 5 分 为 5 个 档次 ，1 代 表 微 弱 相 关 ， 
5 代表 最 相关 ， 其 他 数值 代表 相关 性 在 两 者 之 间 。 对 于 某 个 查询 ， 可 能 
相关 文档 众多 ， 同 时 用 户 碍 询 也 五 伦 八 门 ， 所 以 全 部 靠 人 工 标注 有 时 候 
不 太 可 能 。 此 时 ， 可 以 利用 用 户 点 击 记录 来 模拟 这 种 人 工 打分 机 制 。 





对 于 机 器 学 习 系 统 来 说 ， 输 入 是 用 户 查 询 和 一 系列 标注 好 的 文档 ， 
机 器 学 习 系 统 需 要 学 习 打 分 函数 ， 然 后 按照 打分 函数 输出 搜索 结果 。 但 
是 在 其 内 部 ， 每 个 文档 是 由 知 干 特征 构成 的 ， 即 每 个 文档 进入 机 器 学 习 
系统 之 前 ， 首 先 需 要 将 其 转换 为 特征 同 量 。 比 较 常 用 的 特征 包括 : 
”查询 词 在 文档 中 的 词 频 信息 ; 
查询 词 的 IDF 信 息 ; 
文档 长 度 ; 
网 页 的 入 链 数量 ; 
网 页 的 出 链 数 量 ; 
网 页 的 PageRank 值 ; 
网 页 的 URL 长 度 ; 
查询 词 的 Proximity 值 ， 即 在 文档 中 多 大 的 窗口 内 可 以 出 现 所 有 











查询 词 。 

以 上 所 列 只 是 影响 排序 的 一 部 分 特征 ， 实 际 上 还 有 很 多 类 似 的 特征 
可 以 作为 特征 向 量 中 的 一 维 加 入 。 在 确定 了 特征 数量 后 ， 即 可 将 文档 转 
换 为 特征 向 量 X， 前 面 说 过 每 个 文档 会 人 工 标 出 其 相关 性 得 分 Y， 这 样 
每 个 文档 会 转换 为 <X,Y> 的 形式 ， 即 特征 向 量 及 其 对 应 的 相关 性 得 分 ， 
这 样 束 形成 了 一 个 具体 的 训练 实例 。 

通过 多 个 训练 实例 ， 束 可 以 采用 机 器 学 习 技 术 来 对 系统 进行 训练 ， 
训练 的 结果 往往 是 一 个 分 类 函数 或 者 回归 函数 ， 在 之 后 的 用 户 搜 索 中 ， 
就 可 以 用 这 个 分 类 函数 对 文档 进行 打分 ， 形 成 搜索 结果 。 

从 目前 的 研究 方法 来 资 ， 可 以 将 机 器 学 习 排序 方法 分 为 以 下 3 种 : 
单 文档 方法 、 文 档 对 方法 和 文档 列表 方法 。 











5.5.2” 单 文 档 方 法 (PointWise Approach) 


单 文档 方法 的 处 理 对 象 是 单独 的 一 篇 文档 ， 将 文档 转换 为 特征 同 量 
后 ， 机 器 学 习 系 统 根 据 从 训练 数据 中 学 习 到 的 分 类 或 者 回归 函数 对 文档 
Ti 打分 结果 即 是 搜索 结果 。 下 面 我 们 用 一 个 简单 的 例子 说 明 这 种 方 
法 。 

图 5-14 是 人 工 标注 的 训练 集合 ， 在 这 个 例子 中 ， 我 们 对 于 每 个 文档 
采用 了 3 个 特征 : 查询 与 文档 的 Cosine 相 似 性 分 值 、 查 询 词 的 Proximity 
值 及 页 面 的 PageRank 数 值 ， 而 相关 性 判断 是 三 元 的 ， 即 要 么 相关 要 么 不 
相关 ， 当 然 ， 这 里 的 相关 性 判断 完全 可 以 按照 相关 程度 扩展 为 多 元 的 ， 


本 例 为 了 方便 说 明 做 了 简化 。 


文档 ID ”用户 查询 Cosine 相似 度 Proximity 值 ” ”PageRank 值 ”相关 性 
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图 5-14 训练 数据 


例子 中 提供 了 5 个 训练 实例 ， 每 个 训练 实例 分 别 标 出 了 其 对 应 的 查 
询 ，3 个 特征 的 得 分 情况 及 相关 性 判断 。 对 于 机 器 学 习 排序 系统 来 说 
根据 训练 数据 ， 需 要 学 习 如 下 的 线性 打分 函数 : 

Score (Q, D) =axCS+bxPM+cxPR+d 


这 个 公式 中 ，CS 代 表 Cosine 相 似 度 变 量 ，PM 代 表 Proximity 值 变 

量 ，PR 代 表 PageRank 值 变量 ， 而 a、b、c、d 则 是 变量 对 应 的 参数 。 如 果 
得 分 大 于 一 设 定 冰 值 ， 则 可 以 认为 是 相关 的 ， 如 果 小 于 设 定 靖 值 则 可 以 
认为 不 相关 。 通 过 训练 实例 ， 可 以 获得 最 优 的 a、b、c、4d 参 数组 合 ， 当 
这 些 参数 确定 后 ， 机 器 学 习 系 统 就 算 学 习 完 毕 ， 之 后 即 可 利用 这 个 打分 
函数 来 进行 相关 性 判断 。 对 于 某 个 新 的 查询 Q 和 文档 D， 系 统 首 先 获 得 
其 文档 D 对 应 的 3 个 特征 的 特征 值 ， 之 后 利用 学 习 到 的 参数 组 合计 算 两 
者 得 分 ， 当 得 分 大 于 设 定 的 阐 值 ， 即 可 判断 文档 是 相关 文档 ， 否 则 判断 
为 不 相关 文档 。 








5.5.3 ”文档 对 方法 (PairWise Approach) 


对 于 搜索 任务 来 说 ， 系 统 接 收 到 用 户 查 询 后 ， 返 回 相 关 文 档 列表 ， 
所 以 问题 的 关键 是 确定 文档 之 间 的 先后 顺序 关系 。 单 文档 方法 完全 从 单 
个 文档 的 分 类 得 分 角度 计算 ， 没有 考虑 文档 之 间 的 顺序 关系 。 文 档 对 方 
法 则 将 重点 转 同 了 对 文档 顺序 关系 是 否 合 理 进行 判断 。 

之 所 以 被 称 为 文档 对 方法 ， 是 因为 这 种 机 器 学 习 方 法 的 训练 过 程 和 





训练 目标 ， 是 判断 任意 两 个 文档 组 成 的 文档 对 <Doc1,Doc2> 是 否 满足 顺 
序 关 系 ， 即 判断 是 否 Docl 应 该 排 在 Doc2 的 前 面 。 图 5-15 展 示 了 一 个 训练 
实例 ， 查 询 Q1 对 应 的 搜索 结果 列表 如 何 转换 为 文档 对 的 形式 ， 因 为 从 
人 工 标注 的 相关 性 得 分 可 以 看 出 ，Doc2 得 分 最 高 ，Doc3 次 之 ，Docl 得 
分 最 低 ， 于 是 我 们 可 以 按照 得 分 大 小 顺序 关系 得 到 3 个 如 图 5-15 所 示 的 
(ee ee 
训练 实例 。 
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图 5-15 ”文档 对 方法 的 训练 实例 


根据 转换 后 的 训练 实例 ， 就 可 以 利用 机 器 学 习 方 法 进行 分 类 函数 的 
学 习 ， 有 具体 的 学 习 方法 有 很 多 ， 比 如 SVM、Boost、 神 经 网 络 等 都 可 以 
作为 具体 的 学 习 方 法 ， 但 是 不 论 具 体 方 法 是 什么 ， 其 学 习 目 标 都 是 一 臻 
的 ， 即 输入 一 个 查询 和 文档 对 <Doc1l,Doc2>， 机 器 学 习 排 序 能 够 判断 这 
种 顺序 关系 是 否 成 立 ， 如 果 成 立 ， 那 么 在 搜索 结果 中 Docl 应 该 排 在 
Doc2 前 面 ， 否 则 Doc2 应 该 排 在 Docl 前 面 。 通 过 这 种 方式 ， 就 完成 搜索 
结果 的 排序 任务 。 

尽管 文档 对 方法 相对 单 文档 方法 做 出 了 改进 ， 但 是 这 种 方法 也 存在 
两 个 明显 的 问题 。 一 个 问题 是 : 文档 对 方法 只 考虑 了 两 个 文档 对 的 相对 
先后 顺序 ， 却 没有 考虑 文档 出 现在 搜索 列表 中 的 位 置 。 排 在 搜索 结果 前 
列 的 文档 更 为 重要 ， 如 果 前 列 文档 出 现 判 断 错 误 ， 代 价 明显 高 于 排 在 后 
面 的 文档 。 针 对 这 个 问题 的 改进 思路 是 引入 代价 敏感 因素 ， 即 每 个 文档 
对 根据 其 在 列表 中 的 顺序 具有 不 同 的 权重 ， 越 是 排 在 前 列 的 权重 越 大 ， 
即 在 搜索 列表 前 列 如 果 排 错 顺序 的 话 其 付出 的 代价 更 高 。 

另外 一 个 问题 是 : 不 同 的 查询 ， 其 相关 文档 数量 差异 很 大 ， 所 以 转 
换 为 文档 对 之 后 ， 有 的 查询 可 能 有 几 百 个 对 应 的 文档 对 ， 而 有 的 查询 只 
有 十 几 个 对 应 的 文档 对 ， 这 对 机 器 学 习 系 统 的 效果 评价 造成 困难 。 我 们 
设想 有 两 个 查询 ， 查 询 Q1 对 应 500 个 文档 对 ， 查 询 Q2 对 应 10 个 文档 对 ， 
假设 学 习 系 统 对 于 查询 Q1 的 文档 对 能 够 判断 正确 480 个 ， 对 于 查询 Q2 的 






































文档 对 能 够 判断 正确 2 个 ， 如 果 从 总 的 文档 对 数量 来 看 ， 这 个 学 习 系统 
的 准确 率 是 (480 十 2) / (500+10) =0.95, B95% 的 准确 率 ， 但 是 
从 查询 的 角度 ， 两 个 查询 对 应 的 准确 率 分 别 为 96% 和 20% ， 两 者 平均 
为 58%， 与 纯粹 从 文档 对 判断 的 准确 率 相 差 其 远 ， 这 对 如 何 继续 调 优 机 
器 学 习 系统 会 带 来 困扰 。 











5.5.4 ”文档 列表 方法 (ListWise Approach) 


单 文档 方法 将 训练 集 里 每 一 个 文档 当做 一 个 训练 实例 ， 文 档 对 方法 
将 同一 个 查询 的 搜索 结果 里 任意 两 个 文档 对 作为 一 个 训练 实例 ， 文 档 列 
表 方 法 与 上 述 两 种 表示 方式 不 同 ， 是 将 每 一 个 查询 对 应 的 所 有 搜索 结果 
列表 整体 作为 一 个 训练 实例 ， 这 也 是 为 何 称 之 为 文档 列表 方法 的 原因 。 

文档 列表 方法 根据 K 个 训练 实例 (一 个 查询 及 其 对 应 的 所 有 搜索 结 
果 评 分 作为 一 个 实例 ) 训练 得 到 最 优 评分 函数 F， 对 于 一 个 新 的 用 户 查 
询 ， 函 数 F 对 每 一 个 文档 打分 ， 之 后 按照 得 分 顺序 由 高 到 低 排序 ， 融 是 
对 应 的 搜索 结果 。 

所 以 关键 问题 是 : 拿 到 训练 数据 ， 如 何 才 能 训练 得 到 最 优 的 打分 函 
数 ? 本 节 介 绍 一 种 训练 方法 ， 它 是 基于 搜索 结果 排列 组 合 的 概率 分 布 情 
况 来 训练 的 ， 图 5-16 是 这 种 方式 训练 过 程 的 图 解 示 意 。 首 先 解释 下 什么 
是 搜索 结果 排列 组 合 的 概率 分 布 ， 我 们 知道 ， 对 于 搜索 引擎 来 说 ， 用 户 
输入 查询 Q， 搜 索引 警 返回 搜索 结果 ， 我 们 假设 搜索 结果 集合 包含 A、B 
RIC 3 个 文档 ， 搜 索引 擎 要 对 搜索 结果 排序 ， 而 这 3 个 文档 的 顺序 共有 6 
种 排列 组 合 方式 ABC，ACB，BAC，BCA，CAB 和 CBA， 而 每 种 排 
列 组 合 都 是 一 种 可 能 的 搜索 结果 排序 方法 。 
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图 5-16 不 同 评分 函数 的 KL 距离 


对 于 某 个 评分 函数 F 来 说 ， 对 3 个 搜索 结果 文档 的 相关 性 打分 ， 得 到 
3 个 不 同 的 相关 度 得 分 F (A) 、F OCB) MF CC) ， 根 据 这 3 个 得 分 就 可 
以 计算 6 种 排列 组 合 情 况 各 自 的 概率 值 。 不 同 的 评分 函数 ， 其 6 种 搜索 结 
果 排 列 组 合 的 概率 分 布 是 不 一 样 的 。 

了 解 了 什么 是 搜索 结果 排列 组 合 的 概率 分 布 ， 我 们 介绍 如 何 根 据 训 
练 实例 找到 最 优 的 评分 函数 。 图 5-16 展 示 了 一 个 具体 的 训练 实例 ， 即 查 
询 Q1 及 其 对 应 的 3 个 文档 的 得 分 情况 ， 这 个 得 分 是 由 人 工 打 上 去 的 ， 所 
以 可 以 看 做 是 标准 答案 。 可 以 设想 存在 一 个 最 优 的 评分 函数 g， 对 查询 
Q1 来 说 ， 其 打分 结果 是 : A 文档 得 6 分 ，B 文 档 得 4 分 ，C 文 档 得 3 分 ， 
为 得 分 是 人 工 打 的 ， 所 以 具体 这 个 函数 g 是 怎样 的 我 们 不 清楚 ， 我 们 的 
任务 就 是 找到 一 个 函数 ， 使 得 函数 对 Q1 的 搜索 结果 打分 顺序 和 人 工 打 
分 顺序 尽 可 能 相同 。 既 然 人 工 打 分 (虚拟 的 函数 g) 已 知 ， 那 么 我 们 可 
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以 计算 函数 g 对 应 的 搜索 结果 排列 组 合 概率 分 布 ， 其 具体 分 布 情 况 如 图 
5-16 中 间 的 概率 分 布 所 示 。 假 设 存 在 两 个 其 他 函数 h 和 f， 它 们 的 计算 方 
法 已 知 ， 对 应 的 对 3 个 搜索 结果 的 打分 在 图 上 可 以 看 到 ， 由 打分 结果 也 
可 以 推出 每 个 函数 对 应 的 搜索 结果 排列 组 合 概率 分 布 ， 那 么 np 和 f 哪 个 与 
虚拟 的 最 优 评分 函数 g 更 接近 呢 ? 一 般 可 以 用 两 个 分 布 概率 之 间 的 距离 
远近 来 度量 这 种 相似 性 ，KL 距 离 束 是 一 种 衡量 概率 分 布 差异 大 小 的 计 
算 工 具 ， 通 过 分 别 计算 h 与 g 的 差异 大 小 及 伍 g 的 兰 异 大 小 ， 可 以 看 出 f 比 
h 更 接近 于 虚拟 的 最 优 函数 g， 那 么 在 这 两 个 函数 中 ， 我 们 应 该 优选 f 作 
为 将 来 搜索 可 用 的 评分 函数 。 训 练 过 程 就 是 在 可 能 的 函数 中 寻找 最 接近 
人 











上 述 例子 只 是 描述 了 对 于 单个 训练 实例 如 何 通过 训练 找到 最 优 范 
数 ， 事 实 上 我 们 有 K 个 训练 实例 ， 昌 然 如 此 ， 其 训练 过 程 与 上 述说 明 是 
类 似 的 ， 可 以 认为 存在 一 个 虚拟 的 最 优 评分 函数 g (实际 上 是 人 工 打 
分 ) ， 训 练 过 程 就 是 在 所 有 训练 实例 基础 上 ， 探 寻 所 有 可 能 的 候选 函 
0 6 0 a 
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经 验 结果 表明 ， 基 于 文档 列表 方法 的 机 器 学 习 排序 效果 要 好 于 前 述 
两 种 方法 。 


5.6 检索 质量 评价 标准 


在 搜索 系统 最 终 推 出 之 前 ， 一 般 都 要 对 其 性 能 进行 评测 。 除 了 时 间 
和 空间 等 运行 效率 方面 的 评测 外 ， 更 重要 的 是 对 搜索 结果 质量 进行 评 
测 。 研 发 人 员 可 以 根据 测试 结果 选择 效果 较 好 的 搜索 技术 ， 或 验证 搜索 
系统 在 真实 环境 中 运行 时 的 实际 效果 ， 以 辅助 系统 不 断 进行 设计 、 研 究 
人 











如 何 评价 搜索 结 条 质量 呢 ? 最 广 为 接 受 的 评价 标准 是 用 精确 率 和 人 如 
回 率 这 两 个 指标 来 评价 搜索 质量 。 


5.6.1 ”精确 率 与 召回 率 


给 定 一 个 固定 的 用 户 搜索 请 求 ， 搜 索 系统 将 系统 认为 和 用 户 请 求 相 
关 的 文档 返回 给 用 户 。 对 于 这 次 搜索 行为 ， 可 以 根据 两 个 维度 来 将 所 有 











文档 构成 的 集合 划分 成 4 个 互 不 相交 的 子 集 (参考 图 5-17) 。 一 个 维度 
征 :“ 该 文档 是 否 与 用 户 发 出 的 搜索 请 求 相 关 ”， 由 此 维度 ， 可 以 将 整个 
文档 集合 划分 为 相关 与 不 相关 两 种 类 型 ， 图 5-17 中 的 第 1 列表 示 相 关 文 
档 ， 第 2 列表 示 不 相关 文档 ;第 2 个 维度 是 :“ 文 档 是 否 在 本 次 搜索 结果 
列表 里 ”由 此 维度 ， 可 以 将 整个 文档 集合 划分 为 “在 本 次 搜索 结果 列 

表 ” 与 “不 在 本 次 搜索 结果 列表 ”两 种 类 型 ， 图 5-17 中 的 第 1 行 表 示 本 次 搜 
索 结 有 果 包 含 的 文档 列表 ， 第 2 行 表示 集合 中 不 在 本 次 搜索 结果 列表 中 出 
现 的 其 他 文档 。 

















是 否 与 查询 相关 


是 否 在 检索 结果 内 











图 5-17 观察 文档 集合 的 两 个 维度 


将 以 上 两 个 划分 维度 组 合 ， 把 文档 集合 切割 为 4 个 互 不 相交 的 子 
集 。 如 图 5-17 所 示 坐 标 中 ， 左 上 和 角 的 子 集 代表 “在 本 次 搜索 结果 中 与 搜 
索 请 求 相关 ”的 文档 ， 假 设 集合 大 小 为 N， 右 上 角 的 子 集 代表 “在 本 次 搜 
索 结 果 中 与 搜索 请 求 不 相关 ”的 文档 ， 假 设 集合 大 小 为 M; 左下 角 的 子 
集 代表 “在 本 次 搜索 结果 之 外 与 搜索 请 求 相关 ”的 文档 ， 即 那些 本 来 应 该 
由 搜索 系统 返回 但 因为 算法 原因 没有 找到 的 相关 文档 ， 假 设 集合 大 小 为 
K; 右 下 角 的 子 集 代表 “在 本 次 搜索 结果 之 外 且 与 搜索 请 求 无 关 ? 的 文 
档 ， 假 设 集合 大 小 为 L。 

在 将 文档 集合 划分 为 4 个 子 集 的 基础 上 ， 我 们 可 以 对 精确 率 和 召回 
率 进 行 定量 描述 ， 如 图 5-18 所 示 是 这 两 个 指标 的 计算 方法 。 

















图 5-18 ”精确 率 与 召回 率 





所 谓 精 确 紊 ， 残 是 本 次 搜索 结果 中 相关 文档 所 占 的 比例 ， 分 子 为 本 
次 搜索 结果 中 的 相关 文档 ( 即 图 5-17 中 的 左上 角子 集 ) ， 分 母 为 本 次 搜 
索 结果 包含 的 所 有 文档 ( 即 图 5-17 中 的 第 1 行 )， 两 者 相 除 得 到 精确 


VW 
LAN, 
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所 谓 召 回 率 ， 即 本 次 搜索 结果 中 包含 的 相关 文档 占 整 个 集合 中 所 有 
相关 文档 的 比例 ， 分 子 与 精确 率 分 子 相 同 ， 即 本 次 搜索 结果 中 包含 的 相 
关 文 档 ， 分 母 为 整个 文档 集合 所 包含 的 所 有 相关 文档 ( 即 图 5-17 中 的 第 
1 列 ) ， 两 者 相 除 得 到 召回 率 。 召 回 率 用 于 评价 搜索 系统 是 否 把 该 找 出 
的 文档 都 找 出 来 了 。 

精确 率 和 召回 紊 是 第 见 的 评估 检索 系统 的 指标 ， 但 是 对 于 搜索 引擎 
来 说 ， 精 确 率 更 为 重要 ， 因 为 搜索 引擎 处 理 海量 数据 ， 一 方面 在 这 种 环 
境 下 ， 对 于 某 个 查询 ， 找 到 与 这 个 查询 相关 的 所 有 文档 (也 即 计 算 召 回 
率 公 式 的 分 母 ) 难度 很 大 ， 导 致 吾 回 率 很 难 准确 计算 ;另外 一 方面 由 于 
数据 量 比较 大 ， 上 所 以 能 够 满足 用 己 需 求 的 文档 量 也 很 大 ， 用 户 很 少 需要 
看 到 所 有 相关 文档 ， 往 往 是 看 到 一 部 分 即 可 满足 搜索 需求 ， 全 部 召回 相 
































关 文 档 对 于 满足 用 户 需 求 意义 也 不 是 特别 重要 。 而 相对 应 地 ， 精 确 率 在 
搜索 引 敬 场景 下 束 非 常 重要 了 ， 因 为 排 在 搜索 列表 前 列 的 搜索 结果 如 果 
有 太 多 不 相关 的 内 容 ， 直接 影响 用 户 体 验 ， 所 以 对 于 搜索 引擎 质量 评估 
来 说 ， 往 往 更 加 关注 精确 率 。 

上 面 介绍 的 精确 率 和 召回 率 的 计算 方法 只 是 通用 的 计算 框架 ， 在 具 
体 评估 时 ， 需 要 做 更 加 精细 的 考虑 。 常 用 的 评估 搜索 引擎 精度 的 指 标 有 
P@10 和 MAP。 











5.6.2 P@10 指 标 


p@10 指 标 更 关注 搜索 结果 排名 最 靠 前 文档 的 结果 质量 ， 它 用 于 评 
估 在 搜索 结果 排名 最 靠 前 的 头 10 个 文档 中 有 多 大 比例 是 相关 的 。 图 5-19 








古 p@10 计 算 的 一 个 示例 ， 打 对 钓 的 文档 代表 与 用 户 查 询 相 关 ， 叉 写 代 
在 这 个 例子 中 ， 尖 10 个 文档 中 包含 了 5 个 相关 文档 ， 所 以 其 精 
Z 0.5 6 
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图 5-19 ” p@10 指 标 
5.6.3 ”MAP 指标 (Mean Average Precision ) 


MAP 指 标 是 针对 多 次 得 询 的 平均 准确 率 衡量 标准 ， 是 评价 检索 系统 
质量 的 第 用 指标 ， 如 果 习 惯 阅 读 信息 检索 相关 学 术 论文 的 话 ， 会 经 党 在 
论文 中 遇 到 这 个 评价 指标 。 

要 了 解 MAP， 首 先 需要 了 解 AP 《Average Precision) 。MAP 是 衡量 
多 个 查询 的 平均 检索 质量 的 ， 而 AP 是 衡量 单个 查询 的 检索 质量 的 ， 图 5- 
20 是 如 何 计 算 某 次 检索 的 AP 得 分 的 示意 图 。 例 子 中 假设 与 用 户 碍 询 相 








关 的 文档 有 3 个 ， 经 过 搜索 系统 输出 后 ， 分 别 排 在 搜索 结果 的 第 2 位 、 第 
4 位 和 第 6 位 ， 如 果 是 一 个 理想 的 搜索 系统 ， 理 论 上 应 该 将 这 3 个 文档 排 
在 第 1 位 、 第 2 位 和 第 3 位 ， 所 以 用 这 3 个 文档 的 理想 排名 位 置 除 以 实际 排 
名 位 置 ， 会 得 到 每 个 文档 的 得 分 ，3 个 文档 求 平均 值得 到 本 次 搜索 的 AP 
值 0.5。AP 值 越 高 ， 则 意味 看 越 接 近 理 想 的 搜索 结果 ， 说 明 检 索 系 统 质 
量 越 好 。 如 果 例 子 中 的 3 个 相关 文档 分 别处 于 搜索 结果 的 第 1 位 、 第 2 位 
和 第 3 位 ， 那 么 AP 值 为 1， 这 就 是 理想 的 搜索 结果 。AP 指 标 兼 顾 了 排 在 
前 列 结果 的 相关 性 和 系统 召回 率 ， 这 是 为 何 被 经 常 采 用 的 原因 。 
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图 5-20 AP 计算 过 程 


AP 是 针对 单 次 得 询 的 衡量 指标 ， 如 果 存 在 多 组 查询 ， 那 么 每 个 得 
ee a ee 
未 。 








检索 模型 是 搜索 引擎 排序 的 理论 基础 ， 用 来 计算 网 页 和 用 户 碍 
询 的 相关 性 。 

几 种 第 用 的 检索 模型 包括 : 布尔 模型 、 向 量 空间 模型 、 概 率 模 
型 、 语 言 模型 及 最 近 几 年 兴起 的 机 器 学 习 排 序 算法 。 





目前 大 部 分 商业 搜索 引擎 采用 概率 模型 作为 相关 性 排序 模型 ， 

而 BM25 则 是 目前 效果 最 好 的 概率 检索 模型 。 
. 精确 率 和 召回 率 是 评价 检索 系统 的 常用 指标 ， 而 对 于 搜索 引擎 
来 说 ， 精 确 率 尤为 重要 。 
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搜索 引擎 在 俘 找 能 够 满足 用 户 请 求 的 网 页 时 ， 主 要 考虑 两 方面 的 因 
A: 一 方面 是 用 户 发 出 的 查询 与 网 页 内 容 的 内 容 相 似 性 得 分 ， 即 网 页 和 
伍 询 的 相关 性 ， 第 5 章 已 经 就 内 容 相似 性 计算 做 了 介绍 ， 男 一 方面 束 是 
通过 链接 分 析 方 法 计算 获得 的 得 分 ， 即 网 页 的 重要 性 。 搜 索引 擎 融合 两 
者 ， 共 同 拟 合 出 相似 性 评分 函数 ， 来 对 搜索 结果 进行 排序 。 本 章 主 要 介 
绍 一 些 闭 名 的 链接 分 析 方 法 。 








6.1 Web 








互联 网 包含 了 海量 网 页 ， 而 网 页 和 一 般 文 本 的 一 个 重要 区 别 是 在 页 
面 内 容 中 包含 相互 引用 的 链接 (Link) ， 如 果 将 一 个 网 页 抽象 成 一 个 节 
扩 ， 而 将 网 页 之 间 的 链接 理解 为 一 条 有 问 边 ， 则 可 以 把 整个 互联 网 抽象 
为 一 个 包含 页 面 大 点 和 市 点 之 间 联 系 边 的 有 问 图 ， 称 之 为 Web 图 。 图 6- 
1 给 出 了 Web 图 的 形象 化 表示 。 











图 6-1 Web 图 的 形象 化 表示 








Web 图 是 对 互联 网 的 一 种 宏观 抽象 ， 其 微观 构成 元 素 是 一 个 个 单独 
的 网 页 。 对 于 某 个 单独 的 网 页 A 来 说 (参见 图 6-2) ， 在 其 内 容 部 分 往往 
会 包含 指向 其 他 网 页 的 链接 ， 这 些 链 接 一 般 称 为 页 面 A 的 出 链 (Out 
Link) 。 因 为 网 页 A 是 在 一 个 网 状 结构 中 ， 所 以 不 仪 网 页 A 会 指向 其 他 
页 面 ， 也 会 有 很 多 其 他 页 面 有 链接 指向 网 页 A， 那 么 这 些 指 问 网 页 A 的 
链接 称 为 网 页 A 的 入 链 (In Link) 。 在 图 6-2 中 ， 网 页 A 有 两 条 出 链 和 一 


条 入 链 。 











网 页 B 网 页 A 
图 6-2 入 链 与 出 链 


锚 文 字 也 是 网 页 中 一 种 种 见 且 非 常 有 用 的 信息 。 所 谓 销 文字 ， 惑 是 
页 面 内 某 个 出 链 附近 的 一 些 描述 文字 。 之 所 以 锚 文 字 会 比较 重要 ， 是 因 
为 销 文 字 往 往 是 对 目标 网 页 的 一 种 概括 性 描述 ， 所 以 在 很 多 技术 方法 里 
都 会 利用 这 个 信息 来 代表 目标 网 页 的 含义 。 图 6-3 给 出 了 一 个 销 文 字 与 
链接 之 间 的 关系 示意 图 。 
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图 6-3” 锚 文字 与 链接 之 间 的 关系 示意 图 
6.2 ”两 个 概念 模型 及 算法 之 间 的 关系 
在 介绍 具体 链接 分 析 算法 之 前 ， 首 先 介绍 两 个 概念 模型 ， 并 对 各 个 


链接 分 析 算 法 之 间 的 关系 进行 说 明 ， 这 样 有 助 于 读者 从 宏观 角度 理解 各 
个 算法 的 基本 思路 与 传承 关系 。 






































6.2.1 随机 游 走 模型 (Random Surfer Model) 


互联 网 用 户 在 上 网 时 ， 往 往 有 类 似 的 网 络 行为 : 输入 网 址 ， 浏 览 页 
面 ， 然 后 顺 着 页 面 的 链接 不 断 打开 新 的 网 页 。 随 机 游 走 模型 束 是 针对 浏 
览 网 页 的 用 户 行为 建立 的 抽象 概念 模型 。 之 所 以 要 建立 这 个 抽象 概念 模 
型 ， 是 因为 包括 PageRank 算 法 在 内 的 很 多 链接 分 析 算 法 都 是 建立 在 随机 


游 走 模型 基础 上 的 。 

图 6-4 给 出 了 随机 游 走 模 型 的 示意 图 。 在 最 初 阶段 ， 用 户 打 开 浏 览 
咒 浏 览 第 1 个 网 页 ， 假 设 我 们 有 一 个 虚拟 时 钟 用 来 计时 ， 此 时 可 以 设 定 
时 间 为 1， 用 户 在 看 完 网 页 后 ， 对 网 页 内 茶 个 链接 指 癌 的 页 面 感 兴 趣 ， 
于 是 点 击 该 链接 ， 进 入 第 2 个 页 面 ， 此 时 虚拟 时 钟 再 次 计时 ， 时 钟 走向 
数字 2， 如 宁 网 页 包含 了 k 个 出 链 ， 则 用 户 从 当前 页 面 跳 转 到 任意 一 个 链 
接 所 指 问 页 面 的 概率 是 相等 的 。 用 户 不 断 重复 以 上 过 程 ， 在 相互 有 链接 
指 加 的 页 面 之 间 跳 转 。 如 果 对 于 某 个 页 面 所 包含 的 所 有 链接 ， 用 户 都 没 
有 兴趣 继续 浏览 ， 则 可 能 会 在 浏览 右 中 输入 另外 一 个 网 址 ， 直 接 到 达 该 
网 页 ， 这 个 行为 称 为 远程 跳 转 〈Teleporting) 。 假 设 互 联网 中 共有 ml 个 
页 面 ， 则 用 户 远程 跳 转 到 任意 一 个 页 面 的 概率 也 是 相等 的 ， 即 为 1m。 
0 eee 

I 概念 模型 。 











图 6-4 ”随机 游 走 模型 示意 图 


下 面 我 们 给 出 一 个 具体 的 随机 游 走 模型 的 例子 ， 为 简单 起 见 ， 该 例 
子 并 未 引入 远程 跳 转 行为 。 

在 如 图 6-5 所 示 的 例子 里 ， 假 设 互联 网 由 A、B、C 3 个 网 页 构成 ， 其 
相互 链接 关系 如 图 中 页 面市 点 之 间 的 有 问 边 所 示 。 根 据 链 接 关 系 ， 即 可 
计算 页 面 节 点 之 间 的 转移 概率 ， 比 如 对 于 节点 A 来 说 ， 只 有 了 唯一 一 个 出 
链 指 向 市 虑 B， 所 以 从 节点 A 跳 转 到 节点 B 的 概率 为 1， 对 于 市 点 C 来 


ie 其 对 节 扣 A 和 B 都 有 链接 指向 ， 所 以 转 问 任意 一 个 其 他 市 点 的 概率 
A2: 





图 6-5 ”随机 游 走 模型 示例 
假设 在 时 刻 1， 用 户 浏 览 页 面 A， 之 后 经 由 链接 进入 页 面 B， 然 后 进 





入 页 面 C， 此 时 面临 两 种 可 能 选择 ， 跳 转 进 入 页 面 A 或 者 页 面 B 皆 可， 两 
者 概率 相同 ， 都 为 1/2。 


假设 例子 中 的 互联 网 包含 不 止 3 个 页 面 ， 而 是 由 10 个 页 面 构成 ， 此 
时 用 户 既 不 想 跳 回 页 面 A， 也 不 想 跳 回 页 面 B， 则 可 以 按照 V10 的 概率 跳 
入 其 他 任意 一 个 页 面 ， 即 进行 远程 跳 转 。 


6.2.2 子 集 传播 模型 





子 集 传播 模型 是 从 诸多 链接 分 析 算 法 中 抽象 出 来 的 概念 模型 (参见 
图 6-6) 。 其 基本 思想 是 在 做 算法 设计 时 ， 把 互联 网 网 页 按照 一 定 规则 
划分 ， 分 为 两 个 甚至 是 多 个 子 集合 。 其 中 茶 个 子 集合 具有 特殊 性 质 ， 很 
多 算法 往往 从 这 个 具有 特殊 性 质 的 子 集合 出 发 ， 给 予 子 集合 内 网 页 初始 
权 值 ， 之 后 根据 这 个 特殊 子 集合 内 网 页 和 其 他 网 页 的 链接 关系 ， 按 照 一 
定 方式 将 权 值 传递 到 其 他 网 页 。 





图 6-6 ” 子 集 传播 模型 


本 章 介绍 的 一 些 链 接 分 析 算 法 符合 子 集 传播 模型 ， 比 如 HITS 算 法 
和 Hilltop 算 法 及 其 衍生 算法 ， 在 “网 页 反 作 浆 ”一 章 CASE) 会 看 到 更 


多 符合 此 模型 的 链接 分 析 算 法 。 

子 集 传播 模型 是 个 高 度 抽象 的 算法 框架 ， 很 多 算法 可 以 认为 是 属于 
此 框架 的 具体 实例 ， 即 整体 思路 如 上 面 所 描述 的 流程 ， 通 常 在 以 下 几 个 
方面 各 目 存 在 不 同 。 

如 何 定义 特殊 子 集合 ， 即 在 确定 子 集合 内 的 网 页 应 该 有 哪些 特 
殊 性 质 ， 有 具体 算法 规则 不 同 。 

” 在 确定 了 特殊 子 集合 所 具有 的 性 质 后 ， 如 何 对 这 个 特殊 子 集合 
内 网 页 给 予 一 定 的 初始 分 值 ? 不同 算法 打分 方式 各 异 。 

从 特殊 子 集合 将 其 分 值 传播 到 其 他 网 页 时 ， 采 取 何 种 传播 方 
A? 可 传播 的 距离 有 多 远 ? 不 同 算法 在 此 阶段 也 大 都 有 差异 。 


注意 : 子 集 传播 模型 是 本 书 作者 从 具体 链接 分 析 算 法 中 归纳 出 的 抽象 模型 ， 未 见 有 文献 明 
确 提 出 ， 请 读者 阅读 时 谨慎 参考 。 


6.2.3 ”链接 分 析 算 法 之 间 的 关系 


到 目前 为 止 ， 学 术 界 已 经 提出 了 很 多 链接 分 析 算 法 ， 图 6-7 列 出 了 
其 中 影响 力 较 大 的 一 些 算 法 及 其 相互 关系 ， 图 中 不 同 算法 之 间 的 箭头 连 
接 代表 算法 之 间 的 改进 关系 ， 比 如 SALSA 算 法 即 融 合 了 PageRank 和 
HITS 算 法 的 基本 思路 。 其 他 算法 所 代表 的 关系 与 此 类 似 ， 可 在 图 中 明 
显 看 出 算法 间 的 传承 关系 。 
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图 6-7 链接 分 析 算 法 关系 


尽管 链接 算法 很 多 ， 但 是 从 其 概念 模型 来 说 ， 基 本 遵循 上 述 小 节 介 
绍 的 随机 游 走 模型 和 子 集 传播 模型 。 而 从 图 中 可 看 出 ， 在 众多 算法 中 ， 
PageRank 和 HITS 算 法 可 以 说 是 最 重要 的 两 个 具有 代表 性 的 链接 分 析 算 
00 0 

a 

在 本 章 后 续 章 节 中 ， 将 详细 介绍 PageRank 算 法 、HITS 算 法 、 
SALSA 算 法 、 主 题 敏感 PageRank 算 法 和 Hilltop 算 法 。 这 些 算法 大 都 已 被 
不 同 的 商业 搜索 引擎 所 采用 ， 在 实际 生活 中 发 挥 了 很 重要 的 作用 。 对 于 
图 6-7 所 列 出 的 其 他 链接 分 析 算 法 ， 将 在 本 章 末尾 简 述 其 原理 。 











6.3 PageRank 算法 


PageRank 是 Google 创 始 人 于 1997 年 构建 早期 的 搜索 系统 原型 时 提出 





的 链接 分 析 算 法 《参见 图 6-8) ， 目 从 Google 在 商业 上 获得 空前 的 成 功 
后 ， 该 算法 也 成 为 其 他 搜索 引擎 和 学 术 界 十 分 关注 的 计算 模型 。 目 前 很 
多 重要 的 链接 分 析 算 法 都 是 在 PageRank 算 法 基础 上 衍生 出 来 的 。 


PageRank 








图 6-8 Google 提出 的 PageRank 算 法 


6.3.1 从 入 链 数 量 到 PageRank 


在 PageRank 提 出 之 前 ， 己 经 有 研究 者 提出 利用 网 页 的 入 链 数 量 来 进 
行 链接 分 析 计 算 ， 这 种 入 链 方法 假设 一 个 网 页 的 入 链 越 多 ， 则 该 网 页 越 
重要 。 早 期 的 很 多 搜索 引擎 也 采纳 了 入 链 数 量 作为 链接 分 析 方 法 ， 对 于 
搜索 引擎 效果 提升 也 有 较 明 显 的 效果 。 

PageRank 除 了 考虑 到 入 链 数 量 的 影响 ， 还 参考 了 网 页 质量 因素 ， 两 
者 相 结合 获得 了 更 好 的 网 页 重要 性 评价 标准 。 

对 于 某 个 互联 网 网 页 A 来 说 ， 该 网 页 PageRank 的 计算 基于 以 下 两 个 
基本 假设 : 

数量 假设 : 在 Web 图 模型 中 ， 如 果 一 个 页 面 节 点 接收 到 的 其 他 
网 页 指 问 的 入 链 数 量 越 多 ， 那 么 这 个 页 面 越 重 要 。 

质量 假设 指 癌 页 面 A 的 入 链 质 量 不 同 ， 质 量 高 的 页 面 会 通过 
链接 同 其 他 页 面 传递 更 多 的 权重 。 所 以 越 是 质量 高 的 页 面 指 辣 页 面 A， 
则 页 面 A 越 重要 。 

通过 利用 以 上 两 个 假设 ，PageRank 算 法 刚 开 始 赋予 每 个 网 页 相同 的 
重要 性 得 分 ， 通 过 友 代 递归 计算 来 更 新 每 个 页 面 节 点 的 PageRank 得 分 ， 



































直到 得 分 稳定 为 止 。 

PageRank 计 算得 出 的 结果 是 网 页 的 重要 性 评价 ， 这 和 用 户 输入 的 僵 
询 是 没有 任何 关系 的 ， 即 算法 是 主题 无 关 的 。 假 设 有 一 个 搜索 引擎 ， 其 
相似 度 计算 函数 不 考虑 内 容 相似 因 系 ， 完 全 采用 PageRank 来 进行 排序 ， 
那么 这 个 搜索 引擎 的 表现 是 什么 样子 的 呢 ? 这 个 搜索 引擎 对 于 任意 不 同 
的 碍 询 请 求 ， 返 回 的 结果 都 是 相同 的 ， 即 返回 PageRank 值 最 高 的 页 面 。 








6.3.2 ” PageRank 计算 


本 节 探 讨 PageRank 的 具体 计算 过 程 。PageRank 的 计算 充分 利用 了 上 
节 提 到 的 两 个 假设 : 数量 假设 和 质量 假设 。 网 页 通过 链接 关系 构建 起 
Web 图 ， 在 初始 阶段 ， 每 个 页 面 设置 相同 的 PageRank 值 ， 通 过 知 干 轮 的 
计算 ， 会 得 到 每 个 页 面 所 获得 的 最 终 PageRank 值 。 随 着 每 一 轮 的 计算 进 
行 ， 网 页 当前 的 PageRank 值 会 不 断 得 到 更 新 。 

在 一 轮 更 新 页 面 PageRank 得 分 的 计算 中 ， 每 个 页 面 将 其 当前 的 
PageRank 值 平均 分 配 到 本 页 面包 含 的 出 链 上 ， 这 样 每 个 链接 即 获得 了 相 
应 的 权 值 。 而 每 个 页 面 将 所 有 指 同 本 页 面 的 入 链 所 传 入 的 权 值 求 和 ， 即 
可 得 到 新 的 PageRank 得 分 。 当 每 个 页 面 都 获得 了 更 新 后 的 PageRank 值 ， 
就 完成 了 一 轮 PageRank 计 算 。 

下 面 以 如 图 6-9 所 示 的 例子 来 说 明 PageRank 的 具体 计算 过 程 。 图 中 
包含 7 个 页 面 ， 其 页 面 编号 分 别 从 1 到 7， 页 面 之 间 的 链接 关系 如 图 所 
示 。 这 里 要 注意 的 一 点 是 : 如 图 6-9 所 示 的 情况 已 是 经 过 若干 轮 计算 之 
后 的 情形 ， 每 个 页 面 已 经 获得 了 当前 的 PageRank 分 值 ， 比 如 页 面 1 当前 
的 PageRank 分 值 为 0.304， 页 面 2 当 前 的 PageRank 分 值 为 0.166， 其 他 页 面 
的 对 应 PageRank 数 值 也 在 图 中 标 出 。 我 们 接 下 来 看 看 从 当前 的 状态 出 
发 ， 如 何 进行 下 一 轮 的 PageRank 计 算 。 

















图 6-9 PageRank 计算 实例 


在 PageRank 计 算 中 ， 从 页 面 A 指 癌 页 面 B 的 茶 个 链接 的 权 值 ， 代 表 





了 从 页 面 A 传 导 到 页 面 B 的 PageRank 分 值 。 而 对 于 页 面 A 来 说 ， 如 果 有 多 
个 出 链 ， 那 么 页 面 A 本 身 的 PageRank 分 值 会 均等 地 分 配给 每 个 链接 。 比 
如 图 6-9 中 的 页 面 4， 其 当前 PageRank 分 值 为 0.105， 包 含 3 个 出 链 ， 分 别 
指 回 页 面 2、 页 面 3 和 页 面 5， 所 以 每 个 出 链 获 得 的 分 值 为 0.035。 图 6-9 中 
其 他 链接 的 权 值 也 与 页 面 4 的 出 链 一 样 ， 通 过 类 似 计算 可 以 得 到 。 

获得 了 每 个 链接 传导 的 权 值 后 ， 即 可 进行 新 一 轮 的 PageRank 计 算 。 
要 想得到 各 个 页 面 节点 的 得 分 ， 只 需 将 网 页 入 链 所 传 入 的 分 值 汇总 即 
可 。 比 如 图 6-9 中 的 页 面 1， 有 4 个 入 链 ， 分 别 来 自 于 页 面 2、3、5、6。 
每 个 链接 传导 的 权 值 也 如 图 上 所 标 ， 那 么 页 面 1 的 新 的 PageRank 值 为 4 个 
入 链 传 入 的 权 值 之 和 ， 即 : 

PR (1) =0.166+0.071+0.045+0.023=0.305 
即 得 分 从 上 一 轮 的 0.304 更 新 到 0.305。 


其 他 页 面 节 点 也 依次 如 此 计算 ， 以 获得 新 的 PageRank 分 值 ， 当 所 有 
页 面 节 点 的 分 值得 到 更 新 ， 束 完成 了 一 轮 PageRank 计 算 。 如 果 在 新 的 一 








轮 PageRank 计 算 之 后 ， 发 现 总体 而 言 ， 页 面 节 点 的 PageRank 值 基本 稳 
定 ， 不 再 发 生 较 大 变化 ， 即 可 结束 PageRank 的 计算 ， 以 此 时 得 到 的 得 
分 ， 作 为 最 后 排序 时 可 以 利用 的 PageRank 得 分 。 


6.3.3 ”链接 陷阱 〈Link Sink) 与 远程 跳 转 〈Teleporting ) 


互联 网 页 面 之 间 的 链接 结构 实际 上 很 复杂 ， 上 一 小 节 介 绍 了 
PageRank 的 计算 过 程 ， 但 是 对 于 茶 些 特殊 的 链接 结构 ， 按 照 上 述 方法 计 
算 PageRank 会 导致 问题 ， 一 个 典型 的 例子 就 是 “链接 陷阱 ”〈 人 参见 图 6- 
10) 。 
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图 6-10 ”链接 隐 E 


图 6-10 包 含 了 3 个 网 页 ， 相 互 有 链接 指 同 ， 形 成 了 一 个 环形 结构 。 
这 种 结构 类 似 于 天 体 中 的 黑洞 ， 在 计算 PageRank 的 时 候 ， 该 结构 将 导致 
系统 只 会 吸收 传 入 的 分 值 ， 而 不 能 将 获得 的 分 值 传 播 出 去 ， 随 着 
PageRank 一 轮 轮 地 连续 运算 ， 链接 陷阱 内 的 页 面 PageRank 得 分 越 来 越 
高 ， 这 与 PageRank 的 设计 初衷 相 违 背 。 

远程 哟 转 是 解决 链接 陷阱 的 通用 方式 ， 所 谓 的 远程 跳 转 ， 即 在 网 页 
癌 外 传递 分 值 的 时 候 ， 不 限于 同 出 链 所 指 网 页 传递 ， 也 可 以 以 一 定 的 概 
率 同 任意 其 他 网 页 跳 转 。 对 于 链接 陷阱 内 的 网 页 来 说 ， 增 加 了 远程 跳 转 
首 施 后 ， 就 像 为 每 个 页 面 增加 了 指 癌 互联 网 任意 其 他 页 面 的 虚拟 边 ， 权 
值 可 以 通过 这 种 虚拟 边 向 外 传递 ， 以 此 来 避免 链接 陷阱 导致 的 问题 。 











6.4 HITS 算 法 (Hypertext Induced Topic 


Selection ) 


HITS 算 法 也 是 链接 分 析 中 非常 基础 且 重 要 的 算法 ， 目 前 已 被 Teoma 
搜索 引擎 Cwww.teoma.com) 作为 链接 分 析 算 法 在 实际 中 使 用 。 


6.4.1 Hub 页 面 与 Authority 页 面 





Hub 页 面 和 Authority 页 面 是 HITS 算 法 最 基本 的 两 个 定义 。 所 谓 
Authority 页 面 ， 是 指 与 某 个 领域 或 者 某 个 话题 相关 的 高 质量 网 页 。 比 如 
搜索 引擎 领域 ，Google 和 百度 首页 即 该 领域 的 高 质量 网 页 ， 比 如 视频 领 
域 ， 优 酶 和 土豆 首页 即 该 领域 的 高 质量 网 页 。 所 谓 的 Hub 页 面 ， 指 的 是 
包含 了 很 多 指向 高 质量 Authority 页 面 链 接 的 网 页 ， 比 如 hao123 首 页 可 以 
认为 是 一 个 典型 的 高 质量 Hub 网 页 。 

图 6-11 给 出 了 一 个 Hub 页 面 实例 ， 这 个 网 页 是 斯 坦 福 大 学 计算 语言 
学 研究 组 维护 的 页 面 ， 这 个 网 页 收集 了 与 统计 自然 语言 处 理 相 关 的 高 质 
量 资 源 ， 包 括 一 些 著名 的 开源 软件 包 及 语料库 等 ， 并 通过 链接 的 方式 指 
癌 这 些 资源 页 面 。 这 个 页 面 可 以 认为 是 “自然 语言 处 理 ” 这 个 领域 的 Hub 
页 面 ， 相 应 地 ， 被 这 个 页 面 指 疝 的 资源 页 面 ， 大 部 分 是 高 质量 的 
Authority 页 面 。 
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图 6-11 自然 语言 处 理 领 域 的 Hub 页 面 


HITS 算 法 的 目的 是 通过 一 定 的 技术 手段 ， 在 海量 网 页 中 找到 与 用 
户 碍 询 主题 相关 的 高 质量 Authority 页 面 和 Hub 页 面 ， 尤 其 是 Authority 页 
面 ， 因 为 这 些 页 面 代表 了 能 够 满足 用 户 碍 询 的 高 质量 内 容 ， 搜 索引 擎 以 
此 作为 搜索 结果 返回 给 用 户 。 











6.4.2 ”相互 增强 关系 


很 多 算法 都 是 建立 在 一 些 假设 之 上 的 ，HITS 算 法 也 不 例外 。HITS 
算法 隐 含 并 利用 了 两 个 基本 假设 : 
基本 假设 1: 一 个 好 的 Authority 页 面 会 被 很 多 好 的 Hub 页 面 指 


HJ o 


基本 假设 2: 一 个 好 的 Hub 页 面 会 





好 的 Authority 页 


到 目前 为 止 ， 无 论 是 从 Hub 页 面 或 者 Authority 页 面 的 定义 也 好 ， 还 
是 从 两 个 基本 假设 也 好 ， 都 能 看 到 一 个 模糊 的 描述 ， 即 “高 质量 "或 
者 “好 的 "， 那 么 什么 是 “好 的 ”Hub 页 面 ? 什么 是 “好 的 >Authority 页 面 ? 
两 个 基本 假设 给 出 了 所 谓 “ 好 ”的 定义 。 

基本 假设 1 说 明了 什么 是 “好 的 >Authority 页 面 ， 即 被 很 多 好 的 Hub 页 
面 指向 的 页 面 是 好 的 Authority 页 面 ， 这 里 两 个 修饰 语 非常 重要 : “很 
多 ”和 * 好 的 ”， 所 谓 * 很 多 "， 即 被 越 多 的 Hub 页 面 指 向 越 好 ， 所 谓 * 好 
的 "， 意 味 着 指向 该 页 面 的 Hub 页 面 质量 越 高 ， 则 页 面 越 好 。 这 综合 了 指 
向 本 页 面 的 所 有 Hub 节 点 的 数量 和 质量 因素 。 

基本 假设 2 则 给 出 了 什么 是 “好 的 >Hub 页 面 的 说 明 ， 即 指向 很 多 好 的 
Authority 页 面 的 网 页 是 好 的 Hub 页 面 。 同 样 地 ，“ 很 多 ”和 “好 的 * 两 个 修 
饰 语 很 重要 ， 所 谓 “ 很 多 ”， 即 指向 的 Authority 页 面 数 量 越 多 越 好 ， 所 
谓 “ 好 的 "， 即 指向 的 Authority 页 面 质量 越 高 ， 则 该 页 面 越 是 好 的 Hub 页 
面 。 这 也 综合 考虑 了 该 页 面 有 链接 指向 的 所 有 页 面 的 数量 和 质量 因素 。 

从 以 上 两 个 基本 假设 可 以 推导 出 Hub 页 面 和 Authority 页 面 之 间 的 相 
互 增强 关系 〈 参 考 图 6-12) ， 即 某 个 网 页 的 Hub 质 量 越 高 ， 则 其 链接 指 
向 的 页 面 的 Authority 质 量 越 好 ， 反 过 来 也 是 如 此 ， 一 个 网 页 的 Authority 
质量 越 高 ， 则 那些 有 链接 指向 本 网 页 的 页 面 Hub 质 量 越 高 。 通 过 这 种 相 
互 增强 关系 不 断 迭 代 计算 ， 即 可 找 出 哪些 页 面 是 高 质量 的 Hub 页 面 ， 哪 
些 页 面 是 高 质量 的 Authority 页 面 。 
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图 6-12 ”相互 增强 关系 








6.4.3 ” HITS 算法 





HITS 算 法 与 PageRank 算 法 一 个 显著 的 差异 是 : HITS 算 法 与 用 户 输 
入 的 查询 请 求 密切 相关 ， 而 PageRank 算 法 是 与 查询 无 关 的 全 局 算法 。 
HITS 后 续 计 算 步 又 都 是 在 接收 到 用 户 查 询 后 展开 的 ， 即 是 与 查询 相关 
的 链接 分 析 算 法 。 

HITS 算 法 接收 到 了 用 户 查 询 之 后 ， 将 查询 提交 给 某 个 现 有 的 搜索 
引擎 〈 或 者 是 自己 构造 的 检索 系统 ) ， 并 在 返回 的 搜索 结果 中 ， 提 取 排 
名 靠 前 的 网 页 ， 得 到 一 组 与 用 户 查 询 高 度 相关 的 初始 网 页 集合 ， 这 个 集 
合 被 称 做 根 集 (Root Set) 。 

在 根 集 的 基础 上 ，HITS 算 法 对 网 页 集合 进行 扩充 〈 人 参考 图 6-13) ， 
扩充 原则 是 : 凡是 与 根 集 内 网 页 有 直接 链接 指向 关系 的 网 页 都 被 扩充 进 
来 ， 无 论 是 有 链接 指向 根 集 内 页 面 也 好 ， 或 者 是 根 集 页 面 有 链接 指向 的 
页 面 也 好 ， 都 被 扩充 进入 扩展 网 页 集合 。HITS 算 法 在 这 个 扩展 网 页 集 
合 内 寻找 好 的 Hub 页 面 与 好 的 Authority 页 面 。 



































图 6-13 根 集 与 扩展 网 页 集合 
对 于 扩展 网 页 集合 来 说 ， 我 们 并 不 知道 哪些 页 面 是 好 的 Hub 页 面 或 





者 好 的 Authority 页 面 ， 每 个 网 页 都 有 潜在 的 可 能 ， 所 以 对 于 每 个 页 面 都 
设立 两 个 权 值 ， 分 别 来 记载 这 个 页 面 是 好 的 Hub 页 面 或 者 Authority 页 面 
的 可 能 性 。 在 初始 情况 下 ， 在 没有 更 多 可 利用 信息 前 ， 每 个 页 面 的 这 两 
个 权 值 都 是 相同 的 ， 可 以 都 设置 为 1。 

之 后 ， 即 可 利用 上 面 提 到 的 两 个 基本 假设 ， 以 及 相互 增强 关系 等 原 
则 进行 多 轮 迭 代 计 算 ， 每 轮 迭 代 计 算 更 新 每 个 页 面 的 两 个 权 值 ， 直 到 权 
值 稳定 不 再 发 生 明 显 的 变化 为 止 。 

图 6-14 给 出 了 迭代 计算 过 程 中 ， 某 个 页 面 的 Hub 权 值 和 Authority 权 
值 的 更 新 方式 。 假 设 以 A G) 代表 网 页 i 的 Authority 权 值 ， 以 H(i) 代表 
网 页 i 的 Hub 权 值 。 在 如 图 6-14 所 示 的 例子 中 ， 扩 展 网 页 集合 有 3 个 网 页 
有 和 链接 指向 页 面 1， 同 时 页 面 1 有 3 个 链接 指向 其 他 页 面 。 那 么 ， 网 页 1 在 
此 轮 迭 代 中 的 Authority 权 值 即 为 所 有 指向 网 页 1 页 面 的 Hub 权 值 之 和 ; 类 
似 地 ， 网 页 1 的 Hub 分 值 即 为 所 指向 的 页 面 的 Authority 权 值 之 和 。 
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图 6-14 Hub 与 Authority 权 值 计算 


扩展 网 页 集合 内 其 他 页 面 也 以 类 似 的 方式 对 两 个 权 值 进行 更 新 ， 妆 
每 个 页 面 的 权 值 都 获得 了 更 新 ， 则 完成 了 一 轮 沈 代 计 算 ， 此 时 HITS 算 
法 会 评估 上 一 轮 迭 代 计 算 中 的 权 值 和 本 轮 迄 代 之 后 权 值 的 差异 ， 如 果 发 
现 总 体 来 说 权 值 没有 明显 变化 ， 说 明 系 统 已 进入 稳定 状态 ， 则 可 以 结束 
计算 。 将 页 面 根据 Authority 权 值得 分 由 高 到 低 排序 ， 取 权 值 最 高 的 右 干 
页 面 作为 啊 应 用 户 碍 询 的 搜索 结果 输出 。 如 果 比 较 发 现 两 轮 计 算 总 体 权 
下 














6.4.4 HITS 算法 存在 的 问题 


HITS 算 法 整体 而 言 是 个 效果 很 好 的 算法 ， 目 前 不 仅 在 搜索 引擎 领 
域 应 用 ， 而 且 被 自然 语言 处 理 及 社交 分 析 等 很 多 其 他 计算 机 领域 借鉴 使 
用 ， 并 取得 了 很 好 的 应 用 效果 。 尽 管 如 此 ， 最 初版 本 的 HITS 算 法 仍然 
存在 一 些 问题 ， 而 后 续 很 多 基于 HITS 算 法 的 链接 分 析 方法 ， 也 是 立足 
于 改进 HITS 算 法 存在 的 这 些 问题 而 提出 的 。 

归纳 起 来 ，HITS 算 法 主要 在 以 下 几 个 方面 存在 不 足 。 


计算 效率 较 低 




















因为 HITS 算 法 是 与 查询 相关 的 算法 ， 所 以 必须 在 接收 到 用 户 查 询 
后 实时 进行 计算 ， 而 HITS 算 法 本 身 需 要 进行 很 多 轮 选 代 计算 才能 获得 
最 终结 果 ， 这 导致 其 计算 效率 较 低 ， 这 是 实际 应 用 时 必须 慎重 考虑 的 问 


je 








主题 漂移 问题 


如 采 在 扩展 网 页 集合 里 包含 部 分 与 查询 主 题 无 关 的 页 面 ， 而 且 这 些 
页 面 之 间 有 较 多 的 相互 链接 指向 ， 那 么 使 用 HITS 算 法 很 可 能 会 给 予 这 
些 无 关 网 页 很 高 的 排名 ， 导 致 搜索 结果 发 生 主 题 漂移 ， 这 种 现象 被 称 为 
紧密 链接 社区 现象 (Tightly-Knit Community Effect) 。 
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于 是 可 以 提升 作 浆 网 页 的 Authority 得 分 。 


结构 不 稳定 
所 谓 结构 不 稳定 ， 束 是 说 在 原 有 的 扩展 网 页 集合 内 ， 如 果 添加 删除 


个 别 网 页 或 者 改变 少数 链接 关系 ， 则 HITS 算 法 的 排名 结果 就 会 有 非常 
大 的 改变 。 





























6.4.5 ”HITS 算 法 与 PageRank 算 法 比较 


HITS 算 法 和 PageRank 算 法 可 以 说 是 搜索 引擎 链接 分 析 的 两 个 最 基 
础 且 最 重要 的 算法 。 从 以 上 对 两 个 算法 的 介绍 可 以 看 出 ， 两 者 无 论 是 在 
基本 概念 模型 ， 还 是 计算 思路 及 技术 实现 细节 都 有 很 大 的 不 同 ， 下 面 对 
两 者 之 间 的 差异 进行 逐一 说 明 。 
HITS 算 法 是 与 用 户 输入 的 查询 请 求 密 切 相关 的 ， 而 PageRank 与 
查询 请 求 无 关 。 所 以 ，HITS 算 法 可 以 单独 作为 相似 性 计算 评价 标准 ， 
而 PageRank 必 须 结合 内 容 相似 性 计算 才 可 以 用 来 对 网 页 相关 性 进行 评 


价 。 














HITS 算 法 因为 与 用 户 但 询 密 切 相关 ， 所 以 必须 在 接收 到 用 户 查 


询 后 进行 实时 计算 ， 计 算 效 率 较 低 ， 而 PageRank 则 可 以 在 在 忠 抓 取 完 成 
后 离线 计算 ， 在 线 直接 使 用 计算 结果 ， 计 算 效率 较 高 。 

HITS 算 法 的 计算 对 象 数量 较 少 ， 只 需 计算 扩展 集合 内 网 页 之 间 
的 链接 关系 ， 而 PageRank 是 全 局 性 算法 ， 对 所 有 互联 网 页 面 节点 进行 处 
理 。 





- 从 两 者 的 计算 效率 和 处 理 对 象 集合 大 小 来 比较 ，PageRank 更 适 
合 部 署 在 服务 器 端 ， 而 HITS 算 法 更 适合 部 署 在 客户 端 。 

HITS 算 法 存在 主题 泛 化 问题 ， 所 以 更 适合 处 理 具体 的 用 户 查 
WW; 而 PageRank 算 法 在 处 理 宽泛 的 用 户 查 询 时 更 有 优势 。 

HITS 算 法 在 计算 时 ， 对 于 每 个 页 面 需要 计算 两 个 分 值 ， 而 
PageRank 算 法 只 需 计 算 一 个 分 值 即 可 ; 在 搜索 引擎 领域 ， 更 重视 HITS 
算法 计算 出 的 Authority 权 值 ， 但 是 在 很 多 应 用 HITS 算 法 的 其 他 领域 ， 
Hub 分 值 也 有 很 重要 的 作用 。 

从 链接 反 作 次 的 角度 来 说 ，PageRank 从 机 制 上 优 于 HITS 算 法 ， 
而 HITS 算 法 更 易 遭 受 链接 作 浆 的 影响 。 

HITS 算 法 结构 不 稳定 ， 当 对 扩展 网 页 集合 内 链接 关系 做 出 很 小 
改变 ， 则 对 最 终 排名 有 很 大 影响 ， 而 PageRank 算 法 相对 HITS 而 言 表现 
稳定 ， 其 根本 原因 在 于 PageRank 计 算 时 的 远程 跳 转 。 























6.5 ”SALSA 算法 


上 一 小 节 介 绍 了 PageRank 算 法 和 HITS 算 法 之 间 的 异同 之 处 ， 
SALSA 算 法 的 初衷 和 希望 能 够 结合 两 者 的 主要 特点 ， 既 可 以 利用 HITS 算 
法 与 查询 相关 的 特点 ， 也 可 以 采纳 PageRank 的 随机 游 走 模型 ， 这 是 
SALSA 算 法 提出 的 背景 。 由 此 可 见 ，SALSA 算 法 融合 了 PageRank 和 
HITS 算 法 的 基本 思想 ， 从 实际 效 末 来 说 ， 很 多 实验 数据 表明 ，SALSA 
的 搜索 效果 也 都 优 于 前 两 个 算法 ， 是 目前 效果 最 好 的 链接 分 析 算 法 之 








从 整体 计算 流程 来 说 ， 可 以 将 SALSA 划 分 为 两 个 大 的 阶段 : 首先 是 
确定 计算 对 象 集合 的 阶段 ， 这 一 阶段 与 HITS 算 法 基本 相同 ， 第 2 个 阶段 
征 链接 关系 传播 过 程 ， 在 这 一 阶段 则 采纳 了 随机 游 走 模 型 。 


65.1 确定 计算 对 象 集合 








PageRank 的 计算 对 象 是 互联 网 所 有 网 页 ，SALSA 算 法 与 此 不 同 ， 
在 本 阶段 ， 其 与 HTS 算 法 思路 大 致 相同 ， 也 是 先 得 到 扩展 网 页 集合 ， 
之 后 将 网 页 关系 转换 为 方向 二 分 图 形式 。 


扩展 网 页 集合 


SALSA 算 法 在 接收 到 用 户 查 询 请 求 后 ， 利 用 现 有 搜索 引擎 或 者 检索 
系统 ， 获 得 一 批 与 用 户 人 查询 在 内 容 上 高 度 相关 的 网 页 ， 以 此 作为 根 集 。 
并 在 此 基础 上 ， 将 与 根 集 内 网 页 有 直接 链接 关系 的 网 页 纳入 ， 形 成 扩展 
网 页 集合 (参考 图 6-15〉。 之 后 会 在 扩展 网 页 集合 内 根据 一 定 的 链接 分 
析 方 法 获得 最 终 搜索 结果 排名 。 














图 6-15 ”扩展 网 页 集合 示例 


转换 为 无 回 二 分 图 





在 获得 了 扩展 网 页 集合 之 后 ，SALSA 根 据 集 合 内 的 网 页 链接 关系 ， 
将 网 页 集合 转换 为 一 个 二 分 图 。 即 将 网 页 划分 到 两 个 子 集 合 中 ， 一 个 子 


合 是 Hub 和 集合 ， 男 一 个 子 集合 是 Authority 集 合 。 划 分 网 页 节点 属于 哪 
个 集合 ， 则 根据 如 下 规则 。 
如 果 一 个 网 页 包含 出 链 ， 这 些 出 链 指 癌 扩展 网 页 集合 内 其 他 节 
点 ， 则 这 个 网 页 可 被 归 入 Hub 集 合 。 

如果 一 个 网 页 包含 扩展 网 页 集合 内 其 他 节点 指 问 的 入 链 ， 则 可 
被 归 入 Authority 集 合 。 

由 以 上 规则 可 以 看 出 ， 如 果菜 个 网 页 同时 包含 入 链 和 出 链 ， 则 可 以 
同时 归 入 两 个 集合 。 同 时 ，Hub 集 合 内 网 页 的 出 链 组 成 了 二 分 图 内 的 
边 ， 根 据 以 上 法 则 ， 将 扩展 网 页 集合 转换 为 二 分 图 。 

图 6-15 和 图 6-16 给 出 了 一 个 示例 ， 说 明了 这 个 转换 过 程 。 假 设 扩 展 
网 页 集合 如 图 6-15 所 示 ， 由 6 个 网 页 构成 ， 其 链接 关系 如 图 所 示 ， 同 时 
为 了 便于 说 明 ， 每 个 网 页 给 予 一 个 唯一 编写 。 图 6-16 则 是 将 图 6-15 中 的 
网 页 集合 转换 为 二 分 图 的 结果 。 以 网 页 6 为 例 ， 因 为 其 有 出 链 指 癌 网 页 
节点 3 和 网 页 节点 5， 所 以 可 以 放 入 Hub 集 合 ， 也 因为 编号 为 1、3、10 的 
网 页 节点 有 链接 指向 网 页 节点 6， 所 以 也 可 以 放 入 Authority 集 合 中 。 网 
页 节点 6 的 两 个 出 链 保 留 ， 作 为 二 分 图 的 边 ， 但 是 这 里 需要 注意 的 是 ， 
在 转换 为 二 分 图 后 ， 原 先 的 有 问 边 不 再 保留 方向 ， 转 换 为 无 回 边 ， 而 
HITS 算 法 仍然 保留 为 有 癌 边 ， 这 点 与 SALSA 略 有 不 同 。 




















Hub Authority 





图 6-16 ”二 分 图 





到 这 一 步骤 为 止 ， 除 了 SALSA 算 法 将 扩展 网 页 集合 转换 为 无 向 二 分 
图 ， 而 HITS 仍 然 是 有 辐 二 分 图 外 ， 其 他 步骤 和 流程 ，SALSA 算 法 与 
HITS 算 法 完全 相同 ， 因 此 ，SALSA 算 法 保证 是 与 用 户 查 询 相 关 的 链接 


分 析 算 法 。 
6.5.2 ”链接 关系 传播 


在 链接 关系 传播 阶段 ，SALSA 算 法 放弃 了 HITS 算 法 的 Hub 节 点 和 
Authority 节 点 相互 增强 的 假设 ， 转 而 采纳 PageRank 的 随机 游 走 模型 。 


链接 关系 传播 概念 模型 


如 图 6-16 所 示 ， 假 设 存 在 某 个 浏览 者 ， 从 某 个 子 集合 中 随机 选择 一 
个 节点 出 发 (为 方便 说 明 ， 图 中 所 示 为 从 Hub 子 集合 的 节点 1 出 发 ， 实 
际 计算 往往 是 从 Authority 子 集合 出 发 的 ) ， 如 果 节 点 包含 多 条 边 ， 则 以 
相等 概率 随机 选择 一 条 边 ， 从 Hub 子 集合 跳 到 Authority 和 集合 内 节点 ， 图 
中 所 示 为 由 节点 1 转移 到 节点 3 之 后 从 Authority 子 集合 再 次 跳 回 Hub 子 集 
合 ， 即 由 节点 3 跳 到 节点 6。 如 此 不 断 在 两 个 子 集 之 间 转 移 ， 形 成 了 
SALSA 自 身 的 链接 关系 传播 模式 。 

尽管 看 上 去 与 PageRank 的 链接 传播 模式 不 同 ， 但 其 实 两 者 是 一 样 
的 ， 关 键 点 在 于 : 其 从 某 个 节点 跳 到 另外 一 个 节点 的 时 候 ， 如 果 包 含 多 
个 可 供 选 择 的 链接 ， 则 以 等 概率 随机 选择 一 条 路 径 ， 即 在 权 值 传播 过 程 
中 ， 权 值 是 被 所 有 链接 平均 分 配 的 。 而 HITS 算 法 不 同 ，HITS 算 法 属于 
权 值 广播 模式 ， 即 将 节点 本 身 的 权 值 完 全 传播 给 有 链接 指向 的 节点 ， 并 
不 根据 链接 多 少 进行 分 配 。 

SALSA 的 上 述 权 值 传播 模型 与 HITS 模 型 关注 重点 不 同 ，HITS 模 型 
关注 的 是 Hub 和 Authority 之 间 的 节点 相互 增强 关系 ， 而 SALSA 实 际 上 关 
注 的 是 Hub-Hub 及 AuthorityAuthority 之 间 的 节点 关系 ， 而 另 一 个 子 集合 
节点 只 是 充当 中 转 桥 梁 的 作用 。 所 以 ， 上 述 权 值 传 播 模型 可 以 转化 为 两 
个 相似 的 子 模型 ， 即 Hub 节 点 关系 图 和 Authority 节 点 关系 图 。 


Authority K A B 
图 6-17 是 由 6-16 的 二 分 图 转化 成 的 Authority 节 点 关系 图 ，Hub 节 点 


关系 图 与 此 类 似 ， 两 者 转化 过 程 是 相似 的 ， 我 们 以 Authority 节 点 关系 图 
为 例 来 看 如 何 从 二 分 图 转化 为 节点 关系 图 。 























6-17 Authority H SKA 


这 里 需要 注意 的 是 : Authority 集 合 内 从 某 个 节点 ji 转移 到 另 一 个 节点 

j 的 概率 ， 与 从 节点 j 转 移 到 节点 的 概率 是 不 同 的 ， 即 非 对 称 的 ， 所 以 转 

2 后 的 Authority 节 点 关系 图 是 个 有 向 图 ， 以 此 来 表示 其 转移 概率 之 间 的 
FF o 


对 于 图 6-17 这 个 Authority 节 点 关系 图 来 说 ， 图 中 包含 的 节点 就 是 二 
分 图 中 属于 Authority 子 集合 的 市 上 尽 ， 关 键 在 于 节点 之 间 的 边 如 何 建 并 及 
节点 之 间 转 移 概 率 如 何 计算 。 


TAKA BP A 


之 所 以 在 Authority 节 点 图 中 ， 节 点 3 有 边 指向 节点 5， 是 因为 在 二 分 
图 中 ， 由 节点 3 通过 Hub 子 集合 的 节点 6 中 转 ， 可 以 通达 市 点 5， 所 以 两 
者 之 间 有 边 建立 。 

这 里 需要 注意 的 是 : 在 二 分 图 中 ， 对 于 Authority 集 合 内 的 某 个 节点 
来 说 ， 一 定 可 以 通过 Hub 子 集合 的 节点 中 转 后 再 次 返回 本 身 ， 所 以 一 定 
包含 一 条 指向 自身 的 有 向 边 。 节 点 1 因为 只 有 中 转 节点 2 使 得 其 返回 
Authority 子 集合 中 的 自身 节点 ， 所 以 只 有 指 同 自身 的 一 条 边 ， 和 其 他 市 


点 没有 边 联系 ， 所 以 例子 中 的 Authority 节 点 关系 图 由 两 个 连通 子 图 构 
成 ， 一 个 只 有 市 把 1， 田 外 一 个 连通 子 图 由 剩余 几 个 节点 构成 。 


市 反之 间 的 转移 概率 


至 于 为 何 Authority 市 点 关系 图 中 ， 节 点 3 到 市 点 5 的 转移 概率 为 
0.25， 是 因为 前 面 介绍 过 ，SALSA 的 权 值 传播 模型 遵循 随机 游 走 模型 。 
在 图 6-16 的 二 分 图 中 ， 从 节点 3 转移 到 节点 5 的 过 程 中 ， 节 点 3 有 两 条 边 
可 做 选择 来 跳 转 到 Hub 子 集合 ， 所 以 每 条 边 的 选择 概率 为 12， 可 以 选择 
其 中 一 条 边 到 达 市 点 6， 同 样 ， 从 闻 点 6 跳 回 到 Authority 子 集合 时 ， 市 反 
6 也 有 两 条 边 可 选 ， 选 中 每 条 边 的 概率 为 112。 所 以 从 节点 3 出 发 ， 经 由 
节点 6 跳 转 到 布点 5 的 概率 为 两 条 边 权 值 的 乘积 ， 即 为 1/4。 

对 于 指向 自身 的 有 疝 边 ， 其 权重 计算 过 程 是 类 似 的 ， 我 们 仍然 以 节 
点 3 为 例 ， 指 向 自身 的 有 向 边 代 表 从 Authority 子 集合 中 的 节点 3 出 发 ， 经 
由 Hub 子 集合 的 节点 再 次 返回 节点 3 的 概率 。 从 图 6-16 的 二 分 图 可 以 看 
出 ， 完 成 这 个 过 程 有 两 条 路 径 可 走 ， 一 条 是 从 市 上 3 到 节点 1 返回 ， 男 外 
一 条 是 从 节点 3 经 由 节点 6 后 返回 ;每 一 条 路 径 的 概率 与 上 面 所 述 计算 方 
法 一 样 ， 因 为 两 条 路 径 各 自 的 概率 为 0.25， 所 以 市 点 3 返回 自身 的 概率 
seats 即 为 0.5。 图 中 其 他 边 的 转移 概率 计算 方式 也 是 
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算 每 个 节点 的 Authority 权 值 。 在 实际 计算 过 程 中 ，SALSA 将 搜索 结果 排 
厅 问 题 进一步 转换 为 求 Authority 闻 点 矩阵 的 主 秩 问题 ,矩阵 的 主 秩 即 为 
每 个 节点 的 相应 Authority 得 分 ， 按 照 Authority 得 分 由 高 到 低 排列 ， 即 可 
得 到 最 终 的 搜索 排序 结果 。 


6.5.3 Authority {E it $F 


ALATI, TT U HSALSA S 8 BEE AE AY Authority AE 
计算 公式 。 图 6-18 中 的 示意 图 表明 了 SALSA 算 法 中 某 个 网 页 节点 的 
Authority 权 值 是 如 何 计算 的 。 如 图 右上 和 角 公 式 所 示 ， 决 定 某 个 网 页 的 
Authority 权 值 涉 及 4 个 因子 。 
































图 6-18 SALSA 节 点 权 值 计算 公式 


Authority 子 集合 中 包含 的 节点 总 数 |A | 。 其 实 这 个 因子 对 于 
Authority 集 合 中 任意 节点 来 说 都 是 相同 的 ， 所 以 对 于 最 终 的 根据 节点 
Authority 权 值 进 行 的 排序 没有 影响 ， 只 是 起 到 保证 权 值 得 分 在 0 到 1 之 
间 ， 能 够 以 概率 形式 表示 权 值 的 作用 。 

网 页 i 所 在 连通 图 中 包含 的 节点 个 数 | A; | 。 网 页 所 在 的 连通 图 
包含 的 节点 个 数 越 多 ， 则 网 页 的 Authority 权 值 越 大 。 

网 页 i 所 在 连通 图 中 包含 的 入 链 总 数 |EE | 。 网 页 所 在 的 连通 图 包 
含 的 入 链 总 数 越 少 ， 则 网 页 的 Authority 权 值 越 大 。 

网 页 i 的 入 链 个 数 | Bi | 。 节 点 入 链 越 多 ， 则 Authority 权 值 越 大 ， 
这 个 因子 是 唯一 一 个 和 节点 本 身 属性 相关 的 。 由 此 可 见 ，SALSA 权 值 计 
算 和 节点 入 链 个 数 成 正比 。 


之 前 图 6-17 的 “Authority 市 点 关系 图 ”由 两 个 连通 子 图 组 成 ， 一 个 由 
唯一 的 节点 1 构成 ， Hh -A ii 点 3、5、6 3 个 节点 构成 ， 两 个 连通 
子 图 在 图 6-18 中 也 被 分 别 圈 出 。 


我 们 以 节点 3 为 例 ， 看 其 对 应 的 4 个 计算 因素 取 值 。 


Authority 子 集 共 包括 4 个 节点 。 
节点 3 所 在 连通 图 包含 3 个 节点 。 
节点 3 所 在 连通 图 共有 6 个 入 链 。 
节点 3 的 入 链 个 数 为 2。 


所 以 ， 节 点 3 的 Authority 权 值 为 : 〈3/4) x (2/6) 二 0.25。 其 他 节 
点 权 值 的 计算 过 程 与 此 类 似 。SALSA 根 据 节 点 的 Authority 权 值 由 高 到 低 
排序 输出 ， 即 为 搜索 结果 。 

| 以 推出 : 如果 整个 Authority 子 集合 所 有 节点 
形成 一 个 完整 的 连通 图 ， 那么 在 计算 Authority 权 值 的 过 程 中 ， WER 
ley - 4 个 因子 中 除了 节点 入 链 个 数 外 ， 其 他 3 个 因子 总 是 相同 的 ， 

只 有 入 链 个 数 起 作用 ， 此 时 ，SALSA 算 法 退化 为 根据 节点 入 链 个 数 决 
顺序 的 算法 。 

从 SALSA 计 算 Authority 得 分 过 程 中 可 看 出 ，SALSA 算 法 不 需要 像 
HITS 算 法 一 样 进行 不 断 的 迭代 计算 ， 所 以 从 计算 效率 角度 看 要 快 于 
HITS 算 法 。 男 外 ，SALSA 算 法 解决 了 HITS 算 法 的 计算 结果 主题 漂移 问 
o o 量 也 优 于 HITS 算 法 。SALSA 算 法 是 目前 效果 最 好 的 链 
人 

















6.6 ”主题 敏感 PageRank (Topic Sensitive 
PageRank ) 


主题 敏感 PageRank 是 PageRank 算 法 的 改进 版 本 ， 该 算法 已 被 Google 
使 用 在 个 性 化 搜索 服务 中 。 


6.6.1 ”主题 敏感 PageRank 与 PageRank 的 关 异 


PageRank 算 法 基本 遵循 前 面 章节 提 到 的 随机 游 走 模型 ， 即 用 户 在 浏 
per as 如 果 和 希望 跳 转 到 其 他 页 面 ， 则 随机 选择 本 网 页 包含 的 某 
链接 ， 进 入 男 一 个 页 面 。 主 题 敏感 PageRank 则 对 该 概念 模型 做 出 改 
引入 了 更 符合 现实 的 假设 。 一 般 来 说 用 户 会 对 某 些 领 域 感 兴趣 ， 同 
时 当 浏 览 某 个 页 面 时 ， 这 个 页 面 也 是 与 某 个 主题 相关 的 《比如 体育 报道 
或 者 娱乐 新 闻 ) ， 所 以 当 用 户 看 完 当 前 页 面 ， 和 希望 跳 转 时 ， 更 倾 癌 于 点 
击 和 当前 页 面 主题 类 似 的 链接 ， 即 主题 敏感 PageRank 是 将 用 户 兴 趣 、 页 
面 主题 及 链接 所 指 同 网 页 与 当前 网 页 主题 的 相似 程度 综合 考虑 而 建立 的 





模型 。 很 明显 ， 这 更 符合 真实 用 户 的 浏览 过 程 。 

PageRank 是 全 局 性 的 网 页 重要 性 衡量 标准 ， 每 个 网 页 会 根据 链接 情 
况 ， 被 赋予 一 个 唯一 的 PageRank 分 值 。 主 题 敏感 PageRank 在 此 点 有 所 不 
同 ， 访 算法 引入 了 16 种 主题 类 型 ， 对 于 某 个 网 页 来 说 ， 对 应 某 个 主题 类 
型 都 有 相应 的 PageRank 分 值 ， 即 每 个 网 页 会 被 赋予 16 个 主题 相关 
PageRank 分 值 。 

在 接收 到 用 户 查 询 后 ， 两 个 算法 在 处 理 方式 上 也 有 较 大 差异 。 
PageRank 算 法 与 查询 无 关 ， 只 能 作为 相似 度 计 算 的 一 个 计算 因子 体现 作 
用 ， 无 法 独立 使 用 。 而 主题 敏感 PageRank 是 查询 相关 的 ， 可 单独 作为 相 
似 度 计算 公式 使 用 。 而 且 ， 在 接收 到 用 户 查 询 后 ， 主 题 敏感 PageRank 还 
需要 利用 分 类 器 ， 计 算 该 查询 隶属 于 事先 定义 好 的 16 个 主题 的 隶属 度 ， 
并 在 相似 度 计算 时 的 排序 公式 中 利用 此 信息 。 

















6.6.2 主题 敏感 PageRank 计 算 流 程 


主题 敏感 PageRank 计 算 主 要 由 两 个 步骤 构成 ， 第 1 步 是 离线 的 分 类 
主题 PageRank 数 值 计算 ; 第 2 步 是 在 线 利 用 算 好 的 主题 PageRank 分 值 ， 
来 评估 网 页 和 用 户 查 询 的 相似 度 ， 以 按照 相似 度 排序 提供 给 用 户 搜 索 结 
果 。 下 面 以 具体 示例 来 了 解 主题 敏感 PageRank 的 计算 流程 。 











分 类 主题 PageRank 计 算 


主题 敏感 PageRank 参 考 ODP 网 站 (www.dmoz.org) ， 定 义 了 16 个 
大 的 主题 类 别 ， 包 括 体 育 、 人 商业 、 科 技 等 。ODP (Open Directory 
Project) 是 人 工整 理 的 多 层级 网 页 分 类 导航 站 点 (参见 图 6-19〉， 在 顶 
级 的 16 个 大 分 类 下 还 有 更 细致 的 小 粒度 分 类 结构 ， 在 最 底层 目录 下 ， 人 
工 收集 了 符合 该 目录 主题 的 精 选 高 质量 网 页 地 址 ， 以 供 互联 网 用 户 导 航 
寻 址 。 主 题 敏感 PageRank 采 用 了 ODP 最 高 级 别 的 16 个 分 类 类 别 作 为 事先 
定义 的 主题 类 型 。 
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图 6-19 ”ODP 首页 


主题 敏感 PageRank 对 16 个 类 别 的 主题 ， 依 次 计算 该 类 别 的 PageRank 
分 值 ， 图 6-20 显 示 了 其 计算 流程 和 基本 思路 ， 为 了 简化 说 明 ， 示 意图 只 
表现 出 了 3 个 分 类 类 别 。 在 计算 某 个 类 别 的 PageRank 分 值 时 ， 将 所 有 网 
页 划分 为 两 个 集合 ， 一 个 集合 是 ODP 对 应 分 类 主题 下 所 包括 的 所 有 网 
页 ， 即 人 工 精 选 的 高 质量 网 页 ， 可 以 称 之 为 集合 5， 剩 下 的 网 页 放 入 男 
一 个 集合 内 ， 可 称 之 为 集合 T。 在 计算 PageRank 时 ， 由 于 集合 S 内 的 网 
页 能 够 很 好 地 表征 分 类 主题 ， 所 以 赋予 较 大 的 跳 转 概率 值 。 通 过 这 种 设 
定 ， 集 合 $S 内 的 网 页 根据 链接 关系 向 集合 T 中 网 页 传递 权 值 ， 因 为 直接 有 
链接 指 癌 的 往往 主题 类 似 ， 这 样 束 将 与 该 分 类 主题 内 容 相 似 的 网 页 赋予 
较 高 的 PageRank 值 ， 而 无 关 的 网 页 则 赋予 较 低 权 重 的 PageRank 分 值 ， 以 
此 方式 达到 对 网 页 所 包含 主题 的 判断 。 











PRart (1)=0.5 


图 6-20 ”网 页 的 分 类 主题 PageRank 计 算 


回 到 图 6-20， 假 设 有 个 编号 为 1 的 网 页 ， 其 被 列 到 ODP 目 录 中 的 艺 
术 类 别 中 ， 在 对 艺术 类 别 进行 PageRank 计 算 时 ，I1 号 网 页 在 集合 S 内 ， 计 


算 结束 后 ， 该 网 页 获得 的 PageRank 分 值 为 0.5。 当 计算 体育 和 商业 类 别 
的 主题 PageRank 分 值 时 ，1 号 网 页 在 集合 T 中 ， 获 得 了 相应 的 集合 S 中 网 
页 传递 的 权 值 ， 分 别 为 0.02 和 0.01。 在 所 有 类 别 计 算 结束 后 ，1 号 网 页 获 
得 了 3 个 不 同 主题 对 应 的 PageRank 分 值 ， 组 成 一 个 主题 PageRank 回 量 。 
通过 类 似 的 方式 ， 互 联网 内 任意 网 页 也 可 以 获得 相应 的 主题 相关 
PageRank 回 量 。 通 过 以 上 过 程 可 以 看 出 ， 主 题 相 关 的 PageRank 分 值 问 量 
其 实 代 表 了 某 个 网 页 所 讲述 内 容 所 属 类 别 的 概率 。 

VER: 在 上 述 计算 主题 PageRank 过 程 中 ， 从 集合 S 和 和 集合 T 的 划分 及 其 权 值 传播 方式 中 可 以 
看 出 ， 该 步骤 计算 过 程 也 符合 子 集 传播 模型 。 但 是 由 于 本 算法 主 框架 及 其 出 发 点 都 是 为 了 改进 
PageRank， 所 以 将 其 归 入 随机 游 走 模型 的 衍生 算法 类 别 中 。 


在 线 相 似 度 计算 


图 6-21 给 出 了 主题 敏感 PageRank 在 线 计算 用 户 碍 询 与 网 页 相似 度 的 
示意 图 。 假 设 用 户 输入 了 查询 请 求 “ 乔 丹 "， 搜 索 系 统 肯 和 完 利 用 用 户 查 询 
分 类 器 对 查询 进行 分 类 ， 计 算 用 户 碍 询 隶 属于 定义 好 的 各 个 类 别 的 概率 
分 别 是 多 少 ， 在 我 们 给 出 的 例子 里 , “和 弄 丹 ?隶属 于 体育 类 别 的 概率 为 
0.6， 娱 乐 类 别 的 概率 为 0.1， 商 业 类 别 的 概率 为 0.3。 
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图 6-21 在 线 相似 度 计 算 


在 进行 上 述 用 户 人 查询 分 类 计算 的 同时 ， 搜 索 系 统 读 取 索 引 ， 找 出 包 
含 了 用 户 碍 询 “ 弄 丹 ? 的 所 有 网 页 ， 并 获得 上 一 步骤 离线 计算 好 的 各 个 分 
类 主题 的 PageRank 值 ， 在 图 6-21 的 例子 里 ， 假 设 茶 个 网 页 A 的 各 个 主题 
PageRank 值 分 别 为 体育 0.2、 娱 乐 0.3 及 商业 0.1。 得 到 用 户 查 询 的 类 别 向 
量 和 某 个 网 页 的 主题 PageRank 疝 量 后 ， 即 可 计算 这 个 网 页 和 查询 的 相似 
度 。 通 过 计算 两 个 向 量 的 乘积 就 可 以 得 出 两 者 之 间 的 相关 性 。 在 如 图 6- 
21 所 示 的 例子 里 ， 网 页 A 和 用 户 碍 询 “ 乔 丹 ” 的 相似 度 为 : 

Sim (“FFF’, A) =0.6x0.2+0.1x0.3+0.3x0.1=0.18 

对 包含 “乔丹 ”这 个 关键 词 的 网 页 ， 都 根据 以 上 方法 计算 ， 得 出 其 与 
用 户 碍 询 的 相似 度 后 ， 就 可 以 按照 相似 度 由 高 到 低 排序 输出 ， 作 为 本 次 
搜索 的 搜索 结 采 返回 给 用 户 。 


6.6.3 ”利用 主题 敏感 PageRank 构 造 个 性 化 搜索 














以 上 内 容 介 绍 的 是 主题 敏感 PageRank 的 基本 思想 和 计算 流程 ， 从 其 
内 在 机 制 来 说 ， 这 个 算法 非常 适合 作为 个 性 化 搜索 的 技术 方案 。 

在 如 图 6-21 所 示 的 例子 里 ， 计 算 相 似 度 使 用 的 只 有 用 户 当 前 输入 的 
得 询 词 “ 乔 丹 ”， 如 果 能 够 对 此 进行 扩展 ， 即 不 仅 使 用 当前 和 查询 词 ， 也 考 
处 利用 用 户 过 去 的 搜索 记录 等 个 性 化 信息 。 比 如 用 户 之 前 搜索 过 “ 耐 
克 ”， 则 可 以 推 新 用 户 输入 “乔丹 ”是 想 购买 运动 服饰 ， 而 如 果 之 前 搜索 
过 “姚明 ”， 则 很 可 能 用 户 希 望 获得 体育 方面 的 信息 。 通 过 这 种 方式 ， 可 
以 将 用 户 的 个 性 化 信息 和 当前 查询 相 融 合 来 构造 搜索 系统 ， 以 此 达到 个 
性 化 搜索 的 目的 ， 更 精准 地 提供 搜索 服务 。 











6.7 Hilltop 算 法 


Hilltop 算 法 是 Torono 大 学 研发 的 链接 分 析 算 法 ， 在 2003 年 被 Google 
公司 收购 ， 而 Google 在 之 后 的 排序 算法 大 改版 中 引入 了 Hilltop 算 法 。 

Hilltop 算 法 融合 了 HITS 和 PageRank 两 个 算法 的 基本 思想 。 一 方面 ， 
Hilltop 是 与 用 户 查 询 请 求 相 关 的 链接 分 析 算 法 ， 吸 收 了 HITS 算 法 根据 用 
户 查 询 获 得 高 质量 相关 网 页 子 集 的 思想 ， 符 合子 集 传播 模型 ， 是 该 模型 
的 一 个 具体 实例 ， 同 时 ， 在 权 值 传播 过 程 中 ，Hilltop 算 法 也 采纳 了 
PageRank 的 基本 指导 思想 ， 即 通过 页 面 入 链 的 数量 和 质量 来 确定 搜索 结 
果 的 排序 权重 。 


6.7.1 。 ”Hilltop 算法 的 一 些 基本 定义 


非 从 属 组织 页 面 (Non-affiliated Pages) 是 Hilltop 算 法 的 一 个 很 重要 
的 定义 。 要 了 解 什 么 是 非 从 属 组 织 页 面 ， 先 要 搞 明 白 什 么 是 从 属 组 织 网 
站 ， 所 谓 的 从 属 组 织 网 站 ， 即 不 同 的 网 站 属于 同一 机 构 或 者 其 拥有 者 有 
密切 关联 。 有 具体 而 言 ， 满 足 如 下 任意 一 条 判断 规则 的 网 站 会 被 认为 是 从 
属 网 站 。 
条 件 1: ”主机 IP 地 址 的 前 3 个 子 网 段 相 同 ， 比 如 : IP 地 址 分 别 为 
159.226.138.127 和 159.226.138.234 的 两 个 网 站 会 被 认为 是 从 属 网 站 。 
条 件 2: ”如 果 网 站 域名 中 的 主 域名 相同 ， 比 如 www.ibm.com 和 和 
www.ibm.com.cn 会 被 认为 是 从 属 组 织 网 站 。 
非 从 属 组 织 页 面 的 含义 是 : 如 果 两 个 页 面 不 属于 从 属 网 站 ， 则 为 非 
从 属 组 织 页 面 。 图 6-22 是 相关 示意 图 ， 从 图 中 可 以 看 出 ， 页 面 2 和 页 面 3 
同属 于 IBM 的 网 页 ， 所 以 是 从 属 组织 页 面 ， 而 页 面 1 和 页 面 5、 页 面 3 和 



























































页 面 6 都 是 非 从 属 组 织 页 面 。 由 此 也 可 看 出 ， 非 从 属 组 织 页 面 代 表 的 是 
页 面 的 一 种 关系 ， 单 个 页 面 是 无 所 谓 从 属 或 者 非 从 属 组 织 页 面 的 。 
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图 6-22 从属 组 织 页 面 与 非 从 属 组 织 页 面 





专家 页 面 (Export Sources) 是 Hilltop 算 法 的 另外 一 个 重要 定义 。 所 
谓 专家 页 面 ， 即 与 某 个 主题 相关 的 高 质量 页 面 ， 同 时 需要 满足 以 下 要 
求 : 这 些 页 面 的 链接 所 指向 的 页 面相 互 之 间 都 是 非 从 属 组 织 页 面 ， 且 这 
些 被 指 同 的 页 面 大 多 数 是 与 专家 页 面 主题 相近 的 。 

Hilltop 算 法 将 互联 网 页 面 划分 为 两 类 子 集合 ， 最 重要 的 子 集合 是 由 
专家 页 面 构成 的 互联 网 页 面子 集 ， 不 在 这 个 子 集合 里 的 剩 下 的 互联 网 页 
面 作 为 另外 一 个 集合 ， 这 个 集合 称 做 目标 页 面 集 合 〈Target Web 


Servers) 。 




















6.7.2 ”Hilltop 算 法 





a a 首先 从 海量 的 互联 网 网 页 中 

一 定 规则 筛选 出 专家 页 面子 集合 ， 并 单独 为 这 个 页 面 集 合 建立 索 
i ip ACT REAA MAAR el 

， 从 专家 页 面子 集合 中 找 出 部 分 相关 性 最 强 的 专家 页 面 ， 并 对 每 个 
0 然后 根据 目标 页 面 和 这 些 专家 页 面 的 链接 关 
系 来 对 目标 页 面 进行 排序 。 基 本 思路 遵循 PageRank 算 法 的 链接 数量 假设 
和 质量 原则 ， 将 专家 页 面 的 得 分 通过 链接 关系 传递 给 目标 页 面 ， 并 以 此 
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家 页 面 和 得 分 较 高 的 目标 页 面 作为 搜索 结果 返回 给 用 户 。 





目标 页 面子 集合 








图 6-23 ”Hilltop 算 法 流程 


各 在 上 述 过 程 中 ，Hilltop 算 法 无 法 得 到 一 个 足够 大 的 专家 页 面 集 
合 ， 则 返回 搜索 结果 为 空 。 由 此 可 以 看 出 ，Hilltop 算 法 更 注重 搜索 结果 
的 精度 和 准确 性 ， 不 太 考 虑 搜索 结果 是 人 否 足 够 多 或 者 对 大 多 数 用 户 查 询 
是 否 剖 有 相应 的 搜索 结果 ， 所 以 很 多 用 户 发 出 的 查询 的 搜索 结果 为 空 。 
这 意味 着 Hilltop 算 法 可 以 与 茶 个 排序 算法 相 结合 ， 以 提高 排序 准确 性 ， 
但 并 不 适合 作为 一 个 独立 的 网 页 排序 算法 来 使 用 。 

从 上 述 整体 流程 描述 可 看 出 ，Hilltop 算 法 主要 包含 两 个 步骤 : 专家 
页 面 搜索 及 目标 页 面 排序 。 


步骤 一 : 专家 页 面 搜索 
Hilltop 算 法 从 1 亿 4 千 万 网 页 中 ， 通 过 计算 科 选 出 250 万 规模 的 互联 


网 页 面 作 为 专家 页 面 集 合 。 专 家 页 面 的 选择 标准 相对 宽松 ， 同 时 满足 以 
下 两 个 条 件 的 页 面 即 可 进入 专家 页 面 集合 。 








条 件 1: 页 面 至 少 包 含 k 个 出 链 ， 这 里 的 数量 kx 可 人 为 指定 。 

- 条 件 2: k 个 出 链 指向 的 所 有 页 面相 互 之 间 的 关系 都 符合 非 从 属 
组 织 页 面 的 要 求 。 

当然 ， 在 此 基础 上 ， 可 以 设 定 更 严格 的 科 选 条 件 ， 比 如 要 求 这 些 专 
家 页 面 所 包含 链接 指 回 的 页 面 中 ， 大 部 分 涉及 的 主题 和 专家 页 面 的 主题 
必须 是 一 致 或 近似 的 。 

根据 以 上 条 件 科 选 出 专家 页 面 后 ， 即 可 对 专家 页 面 单独 建 索 引 ， 在 
此 过 程 中 ， 索 引 系 统 只 对 页 面 中 的 关键 片段 (Key Phrase) 进行 索引 。 
所 谓 关 键 厂 段 ， 在 Hilltop 算 法 里 包含 了 网 页 的 3 类 信息 : 网 页 标题 、H1 
标签 内 文字 和 URL 销 文字 。 

网 页 的 关键 片段 可 以 支配 (Qualify〉 某 个 区 域内 包含 的 所 有 和 链接， 
文 配 关 系 代 表 了 一 种 管辖 范围 ， 不 同 的 关键 片段 文 配 链接 的 区 域 范围 不 
同 ， 有 共 体 而 言 ， 页 面 标题 可 以 文 配 页 面 内 所 有 出 现 的 链接 ，H1 标 签 可 
以 文 配 包围 在 <H1> 和 </H1> 内 的 所 有 链接 ， 而 URL 锚 文字 只 能 文 配 本 刁 
唯一 的 链接 。 图 6-24 给 出 了 关键 厂 段 对 链接 文 配 关系 的 示意 图 ， 在 
以 “奥巴马 访问 中 国 ” 为 标题 的 网 页 页 面 中 ， 标 题 文 配 了 所 有 这 个 页 面 出 
现 的 链接 ， 而 H1 标 和 俭 的 管辖 范围 仅 限 于 标签 范围 内 出 现 的 两 个 链接 ， 
对 于 销 文 字 “ 中 国 领导 人 ”来 说 ， 其 唯一 能 够 文 配 的 就 是 本 里 的 这 个 链 
接 。 之 所 以 定义 这 种 文 配 关系 ， 对 于 第 2 阶段 将 专家 页 面 的 分 值 传递 到 
目标 页 面 时 候 会 起 作用 。 
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图 6-24 关键 片段 链接 文 配 关系 


系统 接收 到 用 户 碍 询 Q， 假 设 用 户 碍 询 包 含 了 多 个 单词 ，Hilltop 如 
何 对 专家 页 面 进行 打分 呢 ? 对 专家 页 面 进行 打分 主要 参考 以 下 3 类 信 


关键 片段 包含 了 多 少 查 询 词 ， 包 含 的 查询 词 越 多 ， 则 分 值 越 
高 ， 如 果 不 包 含 任何 查询 词 ， 则 该 关键 片段 不 计 分 。 

关键 片段 本 身 的 类 型 信息 ， 网 页 标题 权 值 最 局 ，H1 标 俭 次 之 ， 
再 次 是 链接 锚 文字 。 

用 户 碍 询 和 关键 片段 的 失 配 率 ， 即 关键 片段 中 不 属于 碍 询 词 的 
3 





Hilltop 综 合 考虑 以 上 3 类 因素 ， 拟 合 出 打分 函数 来 对 专家 页 面 是 否 
与 用 户 查 询 相 关 进 行 打分 ， 选 出 相关 性 分 值 足够 高 的 专家 页 面 ， 以 进行 
下 一 步骤 操作 ， 即 对 目标 页 面 进行 相关 性 计算 。 

步骤 二 : 目标 页 面 排序 


Hilltop 算 法 包含 一 个 基本 假设 ， 即 认为 一 个 目标 页 面 如 果 是 满足 用 
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页 面 链接 指 回 。 然 而 ， 这 个 假设 并 不 总 是 成 立 ， 比 如 有 的 专家 页 面 的 链 
接 所 指 同 的 目标 页 面 可 能 与 用 户 查 询 并 非 密切 相关 。 所 以 ，Hilltop 算 法 
在 这 个 阶段 需要 对 专家 页 面 的 出 链 仔细 进行 对 别 ， 以 保证 选 出 那些 和 得 
询 密切 相关 的 目标 页 面 。 

Hilltop 在 本 阶段 是 基于 专家 页 面 和 目标 页 面 之 间 的 链接 关系 来 进行 
的 ， 在 此 基础 上 上， 将 专家 页 面 的 得 分 传递 给 有 链接 关系 的 目标 页 面 。 传 
递 分 值 之 前 ， 首 先 需 要 对 链接 关系 进行 整理 ， 能 够 获得 专家 页 面 分 值 的 
目标 页 面 需要 满足 以 下 两 点 要 求 : 

条 件 1: 全 少 需要 两 个 专家 页 面 有 链接 指 癌 目标 页 面 ， 而 且 这 两 
个 专家 页 面 不 能 是 从 属 组织 页 面 ， 即 不 能 来 目 同一 网 站 或 相关 网 站 。 如 
果 是 从 属 组 织 页 面 ， 则 只 能 保留 一 个 链接 ， 抛 弃权 值 低 的 那个 链接 。 

条 件 2: 专家 页 面 和 所 指 癌 的 目标 负面 也 需要 符合 一 定 要 求 ， 即 
这 两 个 页 面 也 不 能 是 从 属 组 织 页 面 。 

在 步骤 一 ， 给 定 用 户 查 询 ，Hilltop 算 法 已 经 获得 相关 的 专家 页 面 及 
其 与 查询 的 相关 度 得 分 ， 在 此 基础 上 ， 如 何 对 目标 页 面 的 相关 性 打分 ? 
上 面 列 出 的 条 件 1 指 出 ， 能 够 获得 传递 分 值 的 目标 页 面 一 定 有 多 个 专家 
页 面 链 接 指 铝 ， 所 以 目标 页 面 所 获得 的 总 传播 分 值 是 每 个 有 链接 指向 的 
专家 页 面 所 传递 分 值 之 和 。 而 计算 其 中 茶 个 专家 页 面 传递 给 目标 页 面 权 
值 的 时 候 是 这 么 计算 的 : 

a. 找到 专家 页 面 中 那些 能 够 支配 目标 页 面 的 关键 片段 集合 5。 
ee E EE 





















































c. 专家 页 面 传递 给 目标 页 面 的 分 值 为 : ExT，E 为 专家 页 面 本 刁 在 
第 一 阶段 计算 得 到 的 相关 得 分 ，I 为 b 步 又 计算 的 分 值 。 

我 们 以 图 6-25 的 具体 例子 来 说 明 。 假 设 专家 页 面 集合 内 存在 一 个 网 
页 P， 其 标题 为 “奥巴马 访问 中 国 >， 网 页 内 容 由 一 段 <H1> 标 签 文字 和 男 
一 个 单独 的 链接 销 文 字 组 成 。 该 页 面包 含 3 个 出 链 ， 其 中 两 个 指 癌 目标 
页 面 集合 中 的 网 页 www.china.org， 男 外 一 个 指 问 网 页 www.obama.org。 
出 链 对 应 的 锚 文 字 分 别 为 “奥巴马 ” “中国 ?和 “中 国 领导 人 ?”。 








/ HI y 
| 标题 旨 巴 马 访问 中 国 F \ 
| | 


www. china. org 


| 

a / 

www. obama. org 

HRS 

F W 


图 6-25 ”Hilltop 算 法 分 值 传 递 


从 图 示 的 链接 关系 可 以 看 出 ， 网 页 P 中 能 够 支配 www.china.org 这 个 
目标 页 面 的 关键 片段 集合 包括 : {中 国 领导 人 ， 中 国 ，<H1> 奥 巴 马 访问 
中 国 </H1>， 标 题 ， 奥巴马 访问 中 国 }， 而 能 够 文 配 www.obamba.org 目 
标 页面 的 关键 片段 集合 包括 : { 奥 巴 马 ，<H1> 奥 巴 马 访问 中 国 </H1>， 
标题 : 奥巴马 访问 中 国 }。 

接 下 来 我 们 分 析 专 家 页 面 P 在 接收 到 查询 时 ， 是 怎样 将 分 值 传递 给 
与 其 有 链接 关系 的 目标 页 面 的 。 假 设 系 统 接收 到 的 查询 请 求 为 “ 奥 巴 
马 ”， 在 接收 到 查询 后 ， 系 统 首 先 根据 上 述 章 节 所 述 ， 找 出 专家 页 面 并 
给 予 分 值 ， 而 网 页 P 作 为 专家 页 面 中 的 一 个 页 面 ， 并 获得 了 相应 的 分 值 
S， 我 们 重点 关注 分 值 传 播 步 又。 

对 于 查询 “奥巴马 ”来 说 ， 网 页 P 中 包含 送 个 合 询 词 的 天 键 厂 眉 集 合 
A: {奥巴马 ，<H1> 奥 巴 马 访问 中 国 </H1>， 标 题 ， 奥巴马 访问 中 国 }， 
如 上 所 述 ， 这 3 个 关键 片段 都 能 够 文 配 www. Rata org 页 面 ， 所 以 网 页 
传递 给 www.obamba. org 的 分 全 为 Sx3。 而 对 于 目标 页 面 www.china. Long 
说 ， 这 3 个 关键 片段 中 只 有 {<H1> 奥 巴 马 访问 中 国 </H1>， 标 题 ， 奥巴马 
访问 中 国 } 这 两 个 能 够 支配 目标 页 面 ， 所 以 网 页 P 传 递 给 www. ane org 的 
分 值 为 Sx2。 

对 于 包含 多 个 查询 词 的 用 户 请 求 ， 则 每 个 查询 词 单 独 如 上 计算 ,将 
多 个 查询 词 的 传递 分 值 囚 加 即 可 。 

























Hilltop 算 法 存在 与 HTS 算 法 类 似 的 计算 效率 问题 ， 因 为 根据 查询 主 
题 从 专家 页 面 集合 中 选取 主题 相关 的 页 面子 集 也 是 在 线 运行 的 ， 这 与 前 
面 提 到 的 HITS 算 法 一 样 会 影响 查询 啊 应 时 间 。 随 独 专 家 页 面 集 合 的 增 
大 ， 算 法 的 可 扩展 性 存在 不 足 之 处 。 


6.8 ”其 他 改进 算法 
上 述 章 节 详 述 了 5 个 非常 重要 的 链接 分 析 算 法 ， 在 此 基础 上 ， 学 术 


界 提 出 了 很 多 改进 方法 ， 本 节 简 述 其 中 几 个 相对 重要 方法 的 基本 思路 和 
本 质 思 想 。 








6.8.1 智能 游 走 模型 (Intelligent Surfer Model) 


智能 游 走 模型 是 对 PageRank 算 法 的 改进 ， 算 法 提出 者 认为 PageRank 
所 遵循 的 随机 游 走 模型 不 符合 真实 情况 ， 浏 览 者 在 浏览 一 个 页 面 并 选择 
下 一 步 点 击 对 象 时 ， 并 非 随机 的 ， 而 是 会 对 链接 进行 甄别 ， 如 果 某 个 链 
接 的 网 页 内 容 能 够 表达 浏览 者 向 搜 索引 擎 发 出 的 查询 词 主题 ， 则 用 户 选 
择 点 击 这 个 链接 的 概率 会 更 大 。 智 能 游 走 模型 即 是 对 这 种 情况 建立 模 
型 ， 会 判断 网 页 包含 的 链接 所 指 同 的 网 页 内 容 和 用 户 查 询 的 相关 性 ， 以 
此 来 改善 链接 分 析 效 果 。 

智能 游 走 模型 考虑 到 了 网 页 内 容 和 用 户 输入 查询 词 的 相关 性 ， 所 以 
是 查询 相关 的 链接 分 析 算 法 。 但 是 需要 在 线 计 算 某 个 查询 和 网 页 内 容 的 
相关 性 ， 所 以 计算 速度 较 慢 是 其 重要 缺陷 。 











6.8.2” 偏 置 游 走 模 型 (Biased Surfer Model) 


偏 置 游 走 模 型 也 是 针对 PageRank 的 随机 游 走 模型 的 改进 ， 其 基本 思 
路 和 智能 游 走 模型 很 接近 ， 不 同 点 在 于 : 智能 游 走 模 型 考虑 的 是 网 页 内 
容 和 用 户 查 询 的 相关 性 ， 而 偏 置 游 走 模 型 考虑 的 古 链接 指 同 的 网 页 内 容 
和 当前 浏览 网 页 内 容 之 间 的 相似 性 ， 即 认为 如 果 链 接 指向 网 页 内 容 和 当 
前 浏览 网 页 内 容 越 相 似 ， 则 用 户 越 可 能 点 击 这 个 链接 。 

偏 置 游 走 模型 由 于 没有 考虑 查询 ， 而 只 需要 计算 网 页 内 容 之 间 的 相 
ee naire E 
HAS o 





6.8.3 PHITS 算 法 (Probability Analogy of HITS) 


PHITS 算 法 是 对 HITS 算 法 的 直接 改进 。HITS 算 法 在 通过 链接 进行 
权 值 传递 时 ， 会 将 Hub 或 者 Authority 节 点 的 权 值 全 部 传递 给 所 有 相连 链 
接 ， 而 PHITS 算 法 认为 不 同 链 接 其 传递 权 值 的 能 力 应 该 是 不 同 的 ， 这 是 
E 0 

PHITS 算 法 在 页 面 S 和 页 面 T 之 间 引 入 主题 隐 变 量 ， 而 两 个 页 面 之 间 
链接 的 强度 取决 于 两 个 页 面 和 这 个 隐 变 量 的 主题 耦合 关系 ， 所 以 可 以 将 
这 个 算法 看 做 PLSI 算 法 的 链接 分 析 版 本 。 虽 然 看 上 去 复杂 ， 但 是 PHITS 
算法 的 本 质 思想 和 偏 置 游 走 模型 是 一 样 的 ， 即 考虑 的 其 实 是 页 面 S 和 页 
面 T 之 间 的 内 容 相 似 性 ， 内 容 越 相似 其 链接 强度 越 强 ， 传 递 权 值 的 能 
越 强 。PHITS 算 法 和 直接 计算 页 面 内 容 相似 性 的 区 别 ， 仅 仅 是 加 入 一 个 
隐藏 主题 层 ， 通 过 网 页 和 隐藏 层 的 关系 来 计算 相似 性 。 
































6.8.4 BFS 算法 (Backward Forward Step) 


BFS 算 法 作为 SALSA 算 法 的 改进 提出 ， 而 其 本 质 既 是 对 SALSA 算 法 
的 扩展 ， 也 是 对 HITS 算 法 的 限制 。SALSA 算 法 在 计算 网 页 的 Authority 
分 值 时 ， 仅 仅 考 虑 了 通过 Hub 节 点 能 够 直接 建立 联系 的 网 页 之 间 的 关 
系 ， 而 HITS 算 法 考虑 的 是 链接 图 的 整个 结构 ， 任 意 两 个 网 页 S 和 T， 如 
果 网 页 S 能 够 通过 中 间 节 点 链接 到 网 页 TI， 则 网 页 S 就 对 网 页 T 有 影响 ， 
而 影响 的 大 小 取决 于 从 S 到 T 的 不 同 路 径 走 法 的 个 数 ， 与 到 T 的 距离 远 
近 没 有 关系 。 

BFS 则 是 对 两 者 的 一 个 折 中 考虑 ， 解 除了 SALSA 算 法 只 允许 直接 相 
邻 网 页 才能 有 影响 的 限制 ， 只 要 网 页 S 可 以 通达 T， 即 可 对 网 页 T 施 加 影 
啊 ， 但 是 又 对 HITS 的 网 页 影响 方式 做 了 限制 ， 如 果 网 页 $ 距 离 网 页 T 距 
离 越 远 ， 那 么 网 页 S 的 影响 就 随 着 距离 增 大 而 呈 指 数 衰 减 ， 即 距离 越 
人 

法 的 限制 。 


本 章 提 要 
链接 分 析 在 搜索 引擎 搜索 结果 排序 中 起 到 非常 重要 的 作用 。 


站 
a 

















PageRank 和 HITS 算 法 是 最 重要 且 基 础 的 两 种 链接 分 析 算 法 ， 很 
多 链接 分 析 算 法 是 对 这 两 种 方法 的 改进 。 

SALSA 算 法 是 目前 效果 最 好 的 链接 分 析 算 法 之 一 ， 其 融合 了 
HITS 算 法 与 查询 相关 的 特点 ， 以 及 PageRank 算 法 的 随机 游 走 模型 。 

主题 敏感 PageRank 是 对 PageRank 算 法 的 改进 ， 可 以 应 用 于 个 性 
化 搜索 中 。 

”Hilltop 算 法 除了 可 以 用 来 改善 搜索 系统 的 精确 性 ， 还 可 以 用 来 当 

做 网 页 反 作 浆 的 技术 手段 。 
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第 7 草 ” 云 存储 与 云 计算 


HKE, AEW; 泾 流 之 大 ， 两 疾 请 岩 之 间 不 辩 牛 马 。 于 是 融 河 
伯 欣 然 自 喜 ， 以 天 下 之 美 为 尽 在 己 。 顺 流 而 东 行 ， 至 于 北海 ， 东 面 而 
AL, AKG. Tessie a sae A, BRR AME: 野 语 有 之 
H, ‘GEA, DAR OA’, KZ. RRA AH eZ eM 
ARZE, RERA: 今 我 睹 子 之 难 穷 也 ， 吕 非 至 于 子 之 门 则 殉 
R, 至 长 见 突 于 大 方 之 家 。” 

















(@ ÈT: WOK) 


对 于 Google 这 种 大 型 搜索 引擎 服务 提供 商 来 说 ， 需 要 处 理 的 数据 已 
超 百 亿 ， 而 且 绝 大 部 分 数据 是 网 页 这 种 无 结构 或 者 半 结 构 化 的 数据 。 如 
何 构 建 存 储 平 台 和 计算 平台 ， 使 得 存储 和 管理 这 些 海量 数据 简单 化 ， 就 
成 为 了 重要 问题 。 云 存储 与 云 计算 平台 就 是 为 了 解决 这 个 问题 而 提出 的 
技术 方案 。 目 前 来 说 ， 能 够 提供 一 套 高 效 的 云 存 储 与 云 计 算 平 台 ， 已 成 
为 搜索 引擎 公司 的 核心 竞争 力 。 

云 存 储 与 云 计算 是 目前 非常 流行 的 技术 概念 ， 一 些 国 外 的 大 型 互联 
网 公司 在 此 走 在 前 列 ， 最 典型 的 是 Google 公 司 和 亚马逊 公司 ， 这 两 个 公 
司 是 首先 应 用 并 大 力 倡导 云 计 算 的 领头 企业 。 尽 管 2011 年 4 月 亚马逊 公 
司 的 云 计 算 服务 出 现 了 大 规模 的 故障 ， 导 致 很 多 构建 在 其 上 的 互联 网 公 
司 停止 服务 ， 这 为 云 计算 领域 的 发 展 蒙 上 了 一 层 阴 影 ， 但 是 云 计 算 作 为 
一 种 大 的 技术 和 商业 趋势 ， 一 定 会 继续 迅 狐 前 行 。 

本 章 以 Google 提 供 的 一 整套 云 存 储 与 云 计 算 技术 框架 为 主 ， 来 介绍 
相关 的 核心 技术 ， 不 仅 对 GFS/BigTable/MapReduce 三 驾 马 车 给 出 了 详细 
说 明 ， 还 对 Google 刚 部 署 不 久 的 咖啡 因 系统 及 更 进一步 的 MegaStore 存 
储 系统 等 新 披露 的 技术 进行 了 讲解 。 除 此 之 外 ， 还 对 另外 一 些 有 特色 的 
云 存 储 平 台 进 行 了 介绍 ， 比 如 亚马逊 公司 的 Dynamo， 雅 虎 公司 的 
PNUTS 及 Facebook 公 司 的 HayStack 存 储 平 台 ， 这 些 技术 各 有 特点 ， 是 非 
和 常 有 代表 性 的 云 存 储 与 云 计 算 平 台 ， 基 本 能 够 概括 云 计算 领域 的 技术 现 
状 。 但 是 有 一 点 需要 读者 注意 : 本 章 所 说 的 云 计算 是 狭义 的 ， 不 包括 虚 
拟 化 等 云 计 算 关 键 技术 ， 总 体 而 言 ， 本 章 以 云 存储 作为 讲解 重点 。 









































7.1 云 存储 与 云 计算 概述 


本 节 从 云 存储 与 云 计算 的 基本 假设 、 理 论 基础 、 数 据 模型 及 基本 问 
题 等 方面 开始 ， 使 得 读者 对 这 个 计算 领域 有 个 宏观 的 整体 性 认识 ， 同 时 
本 节 对 Google 的 整套 技术 框架 做 出 概述 性 的 说 明 。 


7.1.1 基本 假设 


云 存 储 与 云 计算 首先 由 大 型 互联 网 公司 提倡 并 推行 ， 是 由 于 互联 网 
数据 的 爆炸 性 增长 导致 的 。 互 联网 服务 和 传统 软件 行业 提供 的 服务 有 很 
大 差 寞 ， 也 有 其 特点 ， 所 以 云 存储 与 云 计算 平台 的 设计 和 构建 都 遵循 以 
下 一 些 基本 假设 与 要 求 。 


1. 由 大 量 廉价 PC 构成 


传统 的 海量 数据 存储 与 管理 ， 往 往 会 选择 商用 数据 库 ， 但 是 现代 云 
计算 和 云 存储 平台 与 此 思路 不 同 ， 往 往 使 用 大 量 廉价 PC 作为 基本 的 存 
储 节点 。 一 方面 这 样 可 以 节省 企业 数据 存储 和 计算 的 成 本 ， 另 外 一 方 
面 ， 数 据 库 的 扩展 性 不 能 满足 拥有 海量 数据 的 互联 网 企业 要 求 ， 这 是 云 
存储 与 云 计算 平台 兴起 的 一 个 基本 背景 。 


2. 机 器 节点 出 现 故 障 是 常态 


由 于 古 大 量 普 通 PC 构 成 的 分 布 式 系统 ， 众 所 周知 ，PC 的 故障 京 很 
高 ， 尤 其 是 这 种 众多 PC 协同 提供 服务 的 模式 ， 随 时 都 有 可 能 条 人 台 机 器 
出 现 故 障 ， 所 以 云 存储 与 云 计算 拉 术 方 采 在 设计 之 初 ， 就 应 该 将 这 种 经 
常 性 的 机 器 故障 作为 一 个 设计 考虑 因素 ， 在 这 个 约束 前 提 下 提供 可 靠 服 
务 ， 必 须要 考虑 到 数据 的 可 用 性 与 安全 性 。 


3. 水 平 增 量 扩 展 


互联 网 服务 随时 都 要 啊 应 用 户 的 请 求 ， 随 独 数 据 量 的 不 断 增 大 ， 需 
要 靠 增 加 机 器 来 承载 更 多 数据 ， 即 使 这 样 ， 也 不 可 能 中 断 服 务 来 进行 ， 
所 以 必须 在 用 户 无 察觉 的 情况 下 实现 增 量 扩展 。 而 对 于 云 存 储 与 云 计算 
平台 ， 应 该 做 到 简单 增加 机 费 就 可 以 自动 实现 增 量 扩展 ， 这 往往 是 通过 
数据 的 水 平分 割 实现 的 。 












































4. 55 20a — SUE 


云 存 储 与 云 计算 平台 有 其 优势 : 高 可 用 性 、 易 扩展 性 、 容 错 性 能 
好 。 但 这 种 优势 并 非 是 无 代价 的 ， 其 付出 的 代价 就 是 数据 的 弱 数 据 一 至 
性 。 数 据 库 提供 了 数据 的 强 数 据 一 致 性 视角 ， 并 在 此 基础 上 提供 了 事务 
支持 ， 而 云 计算 平台 则 放松 这 种 强 数据 一 致 性 ， 这 主要 是 因为 很 多 互联 
网 服务 并 不 要 求 这 种 强 数 据 一 致 性 。 

5. 读 多 写 少 型 服务 

互联 网 服务 有 个 特点 ， 即 读 多 写 少 ， 也 束 是 说 大 量 的 请 求 是 读 取 数 
据 ， 少 量 的 服务 是 对 数据 做 出 更 改 。 所 以 在 设计 云 存储 与 云 计算 平台 
时 ， 应 该 考虑 到 这 个 特点 ， 做 出 有 针对 性 的 优化 ， 保 证 系统 效率 。 


7.1.2 ”理论 基础 























CAP、BASE、ACID 及 最 终 一 致 性 等 这 些 基 础 原理 对 于 深入 理解 云 
存储 与 云 计 算 技 术 有 重要 指导 作用 。 

CAP 是 对 Consistency/Availability/Partition Tolerance 的 一 种 简称 ， 其 
分 别 代 表 : 一 致 性 、 可 用 性 和 分 区 容忍 性 (参考 图 7-1) 。 研 究 者 已 经 
证 明 ， 对 于 一 个 数据 系统 来 说 ，CAP 3 个 要 素 不 可 兼 得 ， 同 一 个 系统 至 
多 只 能 实现 其 中 的 两 个 ， 而 必须 放宽 第 3 个 要 素来 保证 其 他 两 个 要 素 被 
满足 。 对 于 分 布 式 系统 来 说 ， 分 区 容忍 性 是 天 然 具 备 的 要 求 ， 所 以 在 设 
计 有 具体 技术 方案 时 ， 必 须 在 一 致 性 和 可 用 性 方面 做 出 取舍 ， 要 么 选择 强 
数据 一 致 性 减弱 服务 可 用 性 ， 要 么 选择 高 可 用 性 容忍 弱 数 据 一 致 性 。 一 
般 认 为 ， 传 统 的 关系 数据 库 在 三 要 又 中 选择 AP 两 个 因素 ， 即 强 数据 一 
致 性 、 高 可 用 性 但 是 可 扩展 性 差 。 而 云 存 储 系统 往往 关注 CA 因素 ， 即 
高 可 扩展 性 、 高 可 用 性 ， 但 是 以 弱 数 据 一致 性 作为 代价 。 
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图 7-1 CAP 原 理 


BASE 原 则 是 和 ACID 原则 相反 的 基本 原理 ， 我 们 先 介绍 什么 是 
ACID 原则 ，ACID 是 关系 数据 库 系 统 采纳 的 原则 ， 也 是 一 种 简称 ， 其 代 
表 含义 如 下 。 

原子 性 〈Atomicity) : 是 指 一 个 事务 要 么 全 部 执行 ， 要么 完全 不 执 
行 ， 也 束 是 不 允许 一 个 事务 只 执行 了 一 半 束 停止 。 以 银行 转账 为 例 ， 这 
是 一 个 典型 的 事务 ， 它 的 操作 可 以 分 成 几 个 步 又: 首先 从 A 账户 取出 要 
转账 的 金额 ，A 账 户 扣除 相应 的 金额 之 后 ， 将 其 转 入 B 账 户 的 户头 ，B 账 
户 增 加 相同 的 金额 。 这 个 过 程 必须 完整 地 执行 ， 否 则 整个 过 程 将 被 取 
消 ， 回 退 到 事务 未 执行 前 的 状态 。 不 允许 出 现 从 A 账 户 已 经 扣除 金额 ， 
而 没有 打 入 B 账 户 这 种 情形 。 

- 一 致 性 《Consistency) : 事务 在 开始 和 结束 时 ， 应 该 始终 满足 
一 致 性 约束 条 件 。 比 如 系统 要 求 A 十 B 二 100， 那 么 事务 如 果 改 变 了 A 的 
数值 ， 则 B 的 数值 也 要 相应 修改 来 满足 这 种 一 致 性 要 求 。 

* 事务 独立 (Isolation) : 如 果 有 多 个 事务 同时 执行 ， 彼 此 之 间 
不 需要 知晓 对 方 的 存在 ， 而 且 执 行 时 互 不 影响 ， 不 允许 出 现 两 个 事务 交 
错 ， 间 隔 执 行 部 分 任务 的 情形 。 

持久 性 (Durability) : 事务 的 持久 性 是 指 事 务 运行 成 功 以 后 ， 
对 系统 状态 的 更 新 是 永久 的 ， 不 会 无 缘由 回 滚 撤销 。 

数据 库 系 统 采纳 ACID 原则 ， 获 得 高 可 靠 性 和 强 数据 一 致 性 。 而 大 














多 数 云 存储 系统 则 采纳 BASE 原 则 ， 这 种 原则 与 ACID 原 则 差异 很 大 ， 具 
体 而 言 ，BASE 原 则 是 指 : 

- 基本 可 用 (Basically Available) : 在 绝 大 多 数 时 间 内 系统 处 于 
可 用 状态 ， 人 允许 偶尔 的 失败 。 

软 状 态 或 者 柔性 状态 (Soft State) : 数据 状态 不 要 求 在 任意 时 
刻 都 完全 保持 同步 。 

最 终 一 致 性 〈Eventual Consistency) : 与 强 数据 一 致 性 相 比 ， 
最 终 一 致 性 是 一 种 弱 数 据 一 致 性 ， 尽 管 软 状态 不 要 求 任意 时 刻 数据 保持 
一 致 同 步 ， 但 是 最 终 一 致 性 要 求 在 给 定时 间 窗 口内 数据 达到 一 致 状态 。 

BASE 原 则 与 ACID 原则 不 同 ， 是 通过 牺牲 强 数 据 一 致 性 来 获得 高 可 
用 性 的 。 尽 管 大 多 数 云 存储 系统 采纳 了 BASE 原 则 ， 但 是 有 一 点 值得 注 
意 : 云 存储 系统 的 发 展 过 程 正 在 同和 逐步 提供 局 部 ACID 特性 发 展 ， 即 全 
局 而 言 符合 BASE 原 则 ， 但 是 局 部 文 持 ACID 原则 ， 这 样 就 可 以 吸取 两 者 
各 目的 好 处 ， 在 两 者 之 间 建 立 平 衡 ， 从 Google 的 MegaStore 可 以 看 出 这 
种 发 展 趋势 。 

大 多 数 云 存储 系统 采纳 了 最 终 一 致 性 ， 在 分 布 式 存储 架构 中 ， 每 份 
数据 都 要 保留 多 个 备份 ， 但 是 由 于 客户 端 程序 是 并 发 对 数据 读 / 写 ， 可 
能 同时 有 多 个 客户 端 将 数据 更 新 到 不 同 的 备份 中 ， 这 可 能 导致 数据 的 不 
一 致 状态 ， 如 何 维护 数据 保持 一 致 是 个 核心 问题 。 所 谓 强 数据 一 致 性 ， 
就 是 要 求 后 续 的 读 取 操作 看 到 的 都 是 最 新 更 新 的 数据 ;而 弱 数 据 一 致 性 
则 放宽 条 件 ， 人 允许 读 取 到 较 旧 版 本 的 数据 ， 最 终 一 致 性 则 是 给 出 一 个 时 
间 窗 口 ， 在 一 段 时 间 后 ， 系 统 能 够 保证 所 有 备份 数据 的 更 新 是 一 致 的 。 


7.1.3 ”数据 模型 


所 谓 数 据 模型 ， 就 是 云 存 储 架 构 在 应 用 开发 者 眼中 是 何 种 形式 ， 比 
较 常 见 的 数据 模型 有 两 种 :Key/Value 模 式 和 模式 自由 (Schema Free) 
列表 模式 。 图 7-2 展 示 了 两 者 的 区 别 ，Key/Value 模 式 是 一 种 比较 简单 的 
数据 模型 ， 每 个 记录 由 两 个 域 构成 ， 一 个 是 主键 Key， 作 为 记录 的 唯一 
标识 ， 另 一 个 字段 则 存储 记录 的 数据 值 ; 模式 自由 列表 模式 情况 则 复杂 
一 些 ， 同 样 地 ， 每 个 记录 由 一 个 唯一 的 主键 标识 ， 不 同 点 在 于 数据 值 ， 
类 似 于 关系 数据 库 ， 数 据 值 由 若干 个 列 属性 构成 ， 但 是 与 数据 库 不 同 的 
是 : 数据 库 一 旦 确定 列 包含 哪些 属性 ， 就 固定 不 变 ， 而 云 存 储 系统 则 不 
受 此 约束 ， 可 以 随时 增加 或 者 删除 某 个 列 属性 ， 同 时 每 一 行 只 存储 部 分 
列 属性 ， 不 必 完 全 存储 。 






























































图 7-2 云 存 储 数据 模型 
在 云 存储 系统 内 部 实现 存储 结构 的 时 候 ， 最 终 可 以 归结 为 两 种 实现 





方式 : 哈 希 加 链表 或 者 B 十 树 的 方式 。 哈 希 加 链表 查询 速度 较 快 ， 但 是 
次 只 能 查询 一 条 记录 ， 无 法 文 持 批量 顺序 查找 记录 (Scan 方 式 ) ， 而 
B 十 树 则 支持 这 种 查找 方式 ， 但 是 其 管理 方式 相对 复杂 ， 所 以 两 种 方式 
各 擅 胜 场 ， 适 合 不 同 的 应 用 场合 。 


7.1.4 基本 问题 


对 于 一 个 由 大 量 廉价 PC 构成 的 分 布 式 存储 系统 来 说 ， 不 管 具体 方 
案 采 取 何 种 技术 路 线 ， 都 面临 一 些 共同 的 问题 ， 这 些 问题 包括 。 


1. 数据 如 何在 机 器 之 间 分 布 

由 于 数据 量 巨大 ， 单 个 机 器 很 难 承担 存储 全 部 数据 的 责任 ， 所 以 必 
须 将 数据 进行 切割 ， 将 大 数据 切割 成 小 份 ， 并 将 其 分 配 到 其 他 机 器 上 ， 
数据 的 分 布 集 略 是 首先 要 考虑 的 问题 。 

2. 多 备份 数据 如 何 保证 一 致 性 


在 由 大 量 廉价 PC 构成 的 分 布 式 存储 系统 中 ， 随 时 都 可 能 有 PC 出 现 
故障 ， 放 置 在 故障 机 器 上 的 数据 会 因此 不 可 用 ， 出 于 数据 可 用 性 方面 的 











考虑 ， 现 代 云 存储 系统 必须 将 数据 做 多 备份 ， 并 将 备份 数据 放置 在 不 同 
机 占 上 。 而 云 计算 环境 下 ， 很 多 客户 端 程 序 会 并 发 对 数据 进行 读 / 写 ， 
这 样 数据 的 多 个 备份 之 间 如 何 保证 其 状态 是 一 致 的 就 成 了 云 存 储 系统 的 


核心 问题 。 
3. 如 何 啊 应 客户 端的 读 / 写 请 求 


几 千 人 台 机 融 构 成 了 云 存储 与 云 计算 平台 ， 对 于 客 忆 端的 数据 读 / 写 
请 求 ， 如 何 将 请 求 在 不 同 功 能 的 机 右 之 间 转 发 ， 并 做 出 针对 性 啊 应 ， 同 
时 该 / 写 延 迟 尽 可 能 短 ， 数 据 尽 可 能 保证 正确 ， 这 些 都 是 云 存 储 与 云 计 
算 平台 需要 提供 的 基本 功能 和 保证 。 


4. 加 入 《或 者 坏 掉 ) 一 台 机 右 如 何 处 理 


既然 是 由 大 量 PC 构 成 的 系统 ， 随 着 数据 量 不 断 增 加 ， 需 要 的 机 器 
也 随 之 增长 ， 如 果 新 加 入 存储 机 ， 系 统 应 该 将 之 纳入 管理 范围 ， 并 目 动 
为 其 分 配 任务 ;同样 地 ， 如 有 果 茶 合 机 器 因 故 障 不 可 用 ， 如 何 识别 这 种 状 
态 及 如 何 对 其 负责 存储 的 数据 进行 迁移 与 备份 ， 这 也 是 云 存储 平台 的 重 


要 问题 。 
5. 如 何在 机 器 之 间 进 行 负载 均衡 


大 量 PC 共同 承担 数据 存储 与 读 / 写 啊 应 ， 很 容易 出 现 分 工 不 均 的 
情况 ， 导 致 有 些 机 器 非常 蚂 忙 ， 而 有 些 机 器 则 很 空 几 ， 这 样 的 话 ， 繁 忙 
机 器 很 易 成 为 系统 瓶颈 ， 而 闲置 机 器 资源 又 没有 充分 利用 起 来 ， 所 以 如 
何在 机 器 之 间 进 行 负载 均衡 ， 使 得 不 会 出 现 瓶 天 节 点 的 同时 又 能 充分 利 
用 机 器 资源 ， 这 同样 是 再 要 考虑 的 重要 问题 。 


7.1.5 ”Google 的 云 存储 与 云 计 算 架构 
Google 对 于 推动 云 存 储 与 云 计 算 页 献 了 很 大 力量 ， 而 且 到 目前 为 


止 ， 也 是 在 相关 拉 术 方面 积累 最 深厚 的 公司 ， 图 7-3 展 示 了 Google 的 一 
整套 云 存 储 与 云 计算 技术 体系 。 
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图 7-3 ”Google 的 云 存储 与 云 计 算 架 构 


从 大 的 角度 划分 ， 可 以 将 这 些 技术 划分 为 两 类 : 一 类 是 云 存 储 技 
术 ， 另 一 类 是 云 计算 技术 。 云 存储 技术 包括 : GEFS 文 件 系 统 、Chubby 锁 
服务 、BigTable 及 MegaStore 等 一 系列 不 断 进 化 的 存储 系统 ; 云 计算 体系 
则 包含 MapReduce、Percolator 及 Pregel 等 互补 的 计算 模式 。 

GFS 是 一 个 分 布 式 文件 系统 ， 对 海量 数据 提供 了 底层 的 存 取 支持 ， 
至 于 文件 内 容 本 里 则 不 做 格式 要 求 ，BigTable 提 供 了 数据 的 结构 化 和 半 
结构 化 视图 ， 其 数据 模型 与 具体 应 用 更 贴近 ， 同 时 BigTable 提 供 了 记录 
行内 针对 列 属 性 的 原子 操作 ， 即 实现 了 基于 行 的 事务 ， 但 不 提供 行 间或 








者 表 间 的 事务 支持 ; MegaStore 则 在 BigTable 基 础 上 在 事务 支持 方面 又 向 
数据 库 方 回 前 进 了 一 步 ， 文 持 对 数据 的 分 组 ， 组 内 数据 文 持 ACID 原 
则 ， 同 时 强调 局 部 数据 的 强 数据 一 致 性 和 高 可 用 性 ， 可 在 此 基础 上 直接 
提供 面向 用 户 的 实时 交互 服务 。Chubby 则 在 GFS 和 BigTable 中 起 到 了 很 
重要 的 作用 ， 包 括 主 服务 器 的 选举 、 元 数据 的 存储 、 粗 粒度 的 锁 服 务 





MapReduce 和 Percolator 这 两 个 模型 则 是 在 以 上 的 云 存 储 架 构 下 的 计 
算 模 型 ， 两 者 都 是 后 台 计 算 模型 ， 即 其 实时 性 不 够 ， 比 较 适 合 做 后 台 运 
算 。MapReduce 适 合 做 大 规模 数据 的 全 局 统计 ， 对 于 数据 的 增 量 更 新 无 
法 支持 。 而 Percolator 则 是 对 MapReduce 计 算 模型 的 补充 ， 可 以 对 已 有 数 
据 做 部 分 更 新 ， 并 在 BigTable 的 行事 务 基础 上 提供 行 间 事务 和 表 间 事 
务 ， 同 时 利用 观察 通知 的 方式 来 组 织 运算 系统 。 而 Pregel 计 算 模型 则 是 
专门 针对 大 型 图 结构 研发 的 云 计算 技术 。 另 外 ，Google 正 在 进行 第 二 代 
GEFS 及 代号 为 Spanner 的 第 二 代 BigTable 的 研发 。 

受 Google 云 存储 与 云 计算 架构 的 启发 ， 开 源 界 组 织 起 功能 类 似 的 
Hadoop 项 目 ， 其 项 目 分 支 和 Google 相 应 技术 的 对 比 见 图 7-4。 其 中 HDFS 
类 似 于 GFS 文 件 系统 的 功能 ，HBase 则 是 仿照 BigTable 设 计 的 ， 
Zookeeper 起 到 类 似 于 Chubby 的 功能 ， 同 时 Hadoop 也 文 持 MapReduce 计 
算 模型 。 


图 7-4 Hadoop 开 源 架构 与 Google 系 统 对 应 关系 图 
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Hadoop 得 到 雅虎 公司 的 资助 ， 近 些 年 获得 了 很 快 的 发 展 ， 很 多 大 的 
互联 网 公司 都 采用 它 来 做 大 规模 数据 的 后 台 计 算 ， 比 如 Facebook 和 百度 
公司 就 使 用 Hadoop， 并 对 这 一 系统 做 出 了 有 针对 性 的 改进 。 





7.2 ”Google 文件 系统 (GFS) 


Google 文 件 系统 (Google File System， 人 简称 为 GFS) 是 Google 公 司 
为 了 能 够 存储 以 百 亿 计 的 海量 网 页 信息 而 专门 开发 的 文件 系统 。 在 
Google 的 整个 云 存储 和 云 计 算 技术 框架 中 ，GFS 是 其 他 相关 技术 的 基 
石 ， 因 为 GFS 提 供 了 海量 非 结构 化 信息 的 存储 平台 ， 并 提供 了 数据 的 元 
余 备份 、 成 干 台 服务 器 的 自动 负载 均衡 及 失效 服务 器 检测 每 各 种 完备 的 
分 布 式 存 储 功 能 。 只 有 在 GFS 提 供 的 基础 功能 之 上 ， 才 能 开发 更 加 符合 
应 用 需求 的 存储 系统 和 计算 框架 。 








7.2.1 GFS 设 计 原 则 


GFS 是 针对 Google 公 司 自身 业务 需求 而 开发 的 ， 所 以 考虑 到 搜索 引 
擎 这 个 应 用 环境 ，GEFS 在 设计 之 初 即 定 下 几 个 基本 的 设计 原则 。 

首先 ，GEFS 采 用 大 量 商业 PC 来 构建 存储 集群 ， 众 所 周知 ，PC 因 为 
是 面向 普通 用 户 设计 的 ， 所 以 其 稳定 性 并 没有 很 高 的 保障 ， 尤 其 是 大 量 
PC 构成 的 集群 系统 ， 每 天 都 有 机 器 死机 或 者 发 生硬 盘 故 障 ， 这 是 一 个 
常态 ， 也 是 GFS 在 设计 时 就 将 其 考虑 在 内 的 。 因 此 ， 数 据 元 余 备份 、 自 
动 检测 机 器 是 否 还 在 有 效 提供 服务 、 故 障 机 器 的 自动 恢复 等 都 在 GFS 的 
设计 目标 里 。 

其 次 ，GFS 文 件 系统 所 存储 的 文件 绝 大 多 数 都 是 大 文件 ， 文 件 大 小 
大 部 分 在 100MB 到 几 个 GB 之 间 ， 所 以 系统 的 设计 应 该 针对 这 种 大 文件 
的 读 / 写 操 作 做 出 优化 。 尽 管 GFS 也 支持 小 文件 读 / 写 ， 但 是 不 作为 重 
点 ， 也 不 会 进行 有 针对 性 的 操作 优化 。 

第 三 ， 系 统 中 存在 大 量 的 追加 写 操作 ， 即 将 新 增 内 容 追 加 到 已 有 文 
件 的 末尾 ， 已 经 写 入 的 内 容 一 般 不 做 更 改 ， 很 少 有 文件 的 随机 写 行为 ， 
即 指定 已 有 文件 中 间 某 个 位 置 ， 在 这 个 位 置 之 后 写 入 数据 。 

第 四 ， 对 于 数据 读 取 操 作 来 说 ， 绝 大 多 数 读 文件 操作 都 是 顺序 读 ， 
少量 的 操作 是 随机 读 ， 即 按照 数据 在 文件 中 的 顺序 ， 一 次 顺序 读 入 较 大 
量 的 数据 ， 而 不 是 不 断定 位 到 文件 指定 位 置 ， 读 取 少 量 数据 。 

从 下 面 介绍 内 容 可 以 看 出 ，GFS 的 很 多 技术 思路 都 是 为 了 满足 以 上 
































的 几 个 设计 目标 而 提出 的 。 
7.2.2 ”GFS 整 体 架 构 


GFS 文 件 系统 主要 由 3 个 组 成 部 分 构成 :， 唯一 的 主 控 服务 器 
(Master) 、 众 多 的 Chunk 服 务 器 和 GFS 客 户 端 。 主 控 服务 器 主要 做 管 
理工 作 ，Chunk 服 务 器 负责 实际 的 数据 存储 并 响应 GFS 客 户 端的 读 / 写 
请 求 。 尽 管 GFS 由 上 于 人 台 机 器 构成 ， 但 是 在 应 用 开发 者 眼中 ，GFS 类 似 
分 布 式 存储 系统 的 细节 对 应 用 开发 者 来 说 是 不 
AY LAY» 

在 了 解 GFS 整 体 架构 及 其 组 成 部 分 交互 流程 前 ， 我 们 首先 了 解 下 
GFS 中 的 文件 系统 及 其 文件 。 在 应 用 开发 者 看 来 ，GFS 文 件 系 统 类 似 于 
Linux 文 件 系统 或 者 是 windows 操 作 系 统 提 供 的 文件 系统 ， 即 由 目录 和 
存放 在 某 个 目录 下 的 文件 构成 的 树 形 结构 。 在 GFS 系 统 中 ， 这 个 树 形 结 
构 被 称 做 GFS 命 名 空间 ， 同 时 ，GFS 为 应 用 开发 者 提供 了 文件 的 创建 、 
删除 、 读 取 和 写 入 等 常见 的 操作 接口 CAPI) 。 

上 节 提 到 ，GFS 中 存储 的 都 是 大 文件 ， 文 件 大 小 达到 几 个 GB 是 很 
常见 的 。 虽 然 每 个 文件 大 小 各 异 ， 但 是 GFS 在 实际 存储 的 时 候 ， 首 先 会 
将 不 同 大 小 的 文件 切割 成 固定 大 小 的 数据 块 ， 每 一 块 被 称 做 为 一 个 
Chunk， 通 常 将 Chunk 的 大 小 设 定 为 64MB， 这 样 ， 每 个 文件 就 是 由 若干 
个 固定 大 小 的 Chunk 构 成 的 。 图 7-5 是 这 种 情况 的 示意 图 。 
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图 7-5 GEFS 的 文件 存储 示意 图 
从 图 7-5 中 可 以 看 出 ， 每 个 GFS 文 件 被 切割 成 固定 大 小 的 Chunk， 


GFS 即 以 Chunk 为 基本 存储 单位 ， 同 一 个 文件 的 不 同 Chunk 可 能 存储 在 不 
同 的 Chunk 服 务 器 上 ， 每 个 Chunk 服 务 器 可 以 存储 很 多 来 自 于 不 同文 件 
的 Chunk 数 据 。 男 外 ， 在 Chunk 服 务 器 内 部 ， 会 对 Chunk 进 一 步 切 制 ， 将 
其 切割 为 更 小 的 数据 块 ， 每 一 块 被 称 做 为 一 个 Block， 这 是 文件 读 取 的 
基本 单位 ， 即 一 次 读 取 至 少 一 个 Block。 图 7-5 也 标明 了 这 种 对 GEFS 文 件 
细 粒 度 的 切 制 。 总 结 起 来 就 是 :GFS 命 名 空间 由 众多 的 目录 和 GFS 文 件 
构成 ， 一 个 GFS 文 件 由 众多 固定 大 小 的 Chunk 构 成 ， 而 每 个 Chunk 叉 由 更 
小 粒度 的 Block 构 成 ，Chunk 是 GFS 中 基本 的 存储 单元 ， 而 Block 是 基本 
的 读 取 单元 。 

图 7-6 显 示 了 GFS 系 统 的 整体 架构 ， 在 这 个 架构 中 ，GFS 主 控 服 务 器 
主要 做 管理 工作 ， 不 仅 要 维护 GFS 命 名 空间 ， 还 要 维护 Chunk 的 命名 空 
间 ， 之 所 以 如 此 ， 是 因为 在 GFS 系 统 内 部 ， 为 了 能 够 识别 不 同 的 
Chunk， 每 个 Chunk 都 会 赋予 一 个 独一无二 的 编写 ， 所 有 Chunk 的 编写 构 
成 了 Chunk 命 名 空间 ，GFS 主 控 服 务 器 还 记录 了 每 个 Chunk 存 储 在 哪 台 
Chunk 服 务 器 上 等 信息 。 另 外 ， 因 为 GFS 文 件 被 切割 成 了 Chunk，GFS 系 
统 内 部 就 需要 维护 文件 名 称 到 其 对 应 的 多 个 Chunk 之 间 的 映射 关系 。 
Chunk 服 务 器 负责 对 Chunk 的 实际 存储 ， 同 时 响应 GFS 客 户 端 对 自己 负责 
的 Chunk 的 读 / 写 请 求 。 











图 7-6 ”GFS 整 体 架 构 


在 如 图 7-6 所 示 的 GFS 架 构 下 ， 我 们 来 看 看 GFS 客 户 端 是 如 何 读 取 数 
据 的 。 对 于 GFS 客 户 端 来 说 ， 应 用 开发 者 提交 的 读数 据 请 求 是 : 读 取 文 
件 fle， 从 某 个 位 置 P 开 始 读 ， 读 出 大 小 为 L 的 数据 。GFS 系 统 在 接收 到 
这 种 请 求 后 ， 会 在 内 部 做 转换 ， 因 为 Chunk 大 小 是 固定 的 ， 所 以 从 位 置 
P 和 大 小 上 可 以 推算 出 要 读 的 数据 位 于 文件 fle 中 的 第 几 个 Chunk 中 ， 即 请 
求 被 转换 为 < 文件 名 file，Chunk 序 号 > 的 形式 。 随 后 ，GFS 系 统 将 这 个 请 
求 发 送 给 GFS 主 控 服 务 器 ， 因 为 GFS 主 控 服务 器 保存 了 一 些 管理 信息 ， 
通过 GFS 主 控 服务 器 可 以 知道 要 读 的 数据 在 哪 台 Chunk 服 务 器 上 上， 同时 
可 以 将 Chunk 序 号 转换 为 系统 内 唯一 的 Chunk 编 号 ， 并 将 这 两 个 信息 传 
回 到 GFS 客 户 端 。 

GFS 窜 户 端 知道 了 应 该 去 哪 台 Chunk 服 务 器 读 取 数据 后 ， 会 和 Chunk 
服务 器 建立 联系 ， 并 发 送 要 读 取 的 Chunk 编 号 及 读 取 范围 ，Chunk 服 务 
器 在 接收 到 请 求 后 ， 将 请 求 数据 发 送 给 GFS 客 户 端 ， 如 此 就 完成 了 一 次 
数据 读 取 工作 。 








7.2.3 ”GFS 主 控 服务 器 


Google 的 云 存储 平台 有 一 个 显著 的 特点 ， 束 是 大 量 采 用 主 从 结构 ， 
即 单 一 的 主 控 服 务 器 和 众多 的 存储 服务 器 ， 主 控 服 务 器 主要 从 事 系 统 元 
数据 的 存储 管理 及 整个 分 布 式 系统 的 管理 ， 比 如 负载 均衡 ， 数 据 在 存储 
服务 器 之 间 迁 移 ， 检 测 新 加 入 的 机 器 及 失效 机 器 等 工作 。 不 仅 是 GFS， 
在 后 续 的 Chubby 和 BigTable 的 介绍 中 也 可 以 看 出 这 一 明显 特点 。 采 取 主 
从 结构 的 好 处 是 : 因为 整个 系统 存在 一 个 全 局 的 主 控 节 点 ， 所 以 管理 起 
来 相对 简单 。 相 对 应 的 缺点 是 : 因为 主 控 节点 是 唯一 的 ， 很 多 服务 请 求 
都 需要 经 过 主 控 服 务 占 ， 所 以 很 容易 成 为 整个 系统 的 瓶 贷 。 男 外 ， 正 是 
因为 只 有 唯一 的 主 控 节点 ， 所 以 可 能 会 存在 单 点 失效 问题 ， 即 如 果 主 控 
服务 器 瘫痪 ， 那 么 整个 系统 不 可 用 。 

GFS 系 统 是 非常 典型 的 具有 Google 风 格 的 设计 ， 本 节 我 们 介绍 GFS 
主 控 服务 器 所 管理 的 系统 元 数据 及 对 应 的 管理 功能 。 图 7-7 展 示 了 GFS 主 
控 服 务 器 所 管理 的 系统 数据 ， 维 持 整 个 系统 正常 运转 需要 3 类 元 数据 。 
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主 控 服 务 器 
图 7-7 GFS 主 控 服 务 器 所 管理 的 系统 数据 


1. GFS 命 名 空间 和 Chunk 命 名 空间 : 主要 用 来 对 目录 文件 及 
Chunk 的 增删 改 等 信息 进行 记录 。 

2. 从 文件 到 其 所 属 Chunk 之 间 的 映射 关系 : 因为 一 个 文件 会 被 切 
割 成 众多 Chunk， 所 以 系统 需要 维护 这 种 映射 关系 。 

3. 每 个 Chunk 在 哪 台 Chunk 服 务 井 存储 的 信息 : 在 GFS 系 统 中 ， 
每 个 文件 会 被 切割 成 若干 Chunk， 同 时 每 个 Chunk 会 被 复制 多 个 备份 ， 
并 存储 在 不 同 服务 器 上 ， 之 所 以 如 此 ， 原 因 是 GFS 由 众多 的 普通 PC 构 
成 ， 而 PC 死机 是 经 常事 件 ， 如 果 Chunk 服 务 器 不 可 用 ， 那 么 存储 在 其 上 
的 Chunk 信 息 会 丢失 ， 为 了 避免 这 种 情况 发 生 ， 将 每 个 Chunk 复 制 多 
份 ， 分 别 存储 在 不 同 的 机 器 上 ， 这 样 即使 发 生机 器 故障 ， 也 可 以 在 其 他 
机 器 上 找到 对 应 的 Chunk 备 份 信息 。 云 存储 平台 必须 提供 这 种 数据 宛 余 
来 保证 数据 的 安全 。 在 如 图 7-7 所 示 的 例子 中 ， 每 个 Chunk 保 留 3 个 备 
份 ， 比 如 对 于 Chunk1 来 说 ，Chunk1' 和 Chunk1' 是 其 两 个 复制 文件 ， 这 3 
个 Chunk 分 别 存储 在 不 同 的 Chunk 服 务 嚣 中。 








有 了 以 上 3 类 管理 信息 ，GFS 就 可 以 根据 文件 名 找到 对 应 的 Chunk， 
同时 知道 每 个 Chunk 存 储 在 哪 台 Chunk 服 务 器 上 ，GFS 客 户 端 程序 通过 
GFS 主 控 服务 器 就 可 以 知道 应 该 到 哪里 去 读 / 写 相应 的 数据 ， 整 个 系统 
就 能 正常 运转 起 来 。 

由 于 管理 数据 非常 重要 ， 所 以 其 安全 性 必须 得 到 保障 ， 如 果 管 理 数 
据 丢 失 ， 那 么 这 个 GFS 系 统 也 就 不 可 用 。GFS 将 前 两 类 管理 信息 (命名 
空间 及 文件 到 Chunk 映 射 表 ) 记录 在 系统 日 志文 件 内 ， 并 且 将 这 个 系统 
日 志 分 别 存储 在 多 台 机 器 上 ， 这 样 就 避免 了 信息 丢失 的 问题 。 对 于 第 3 
类 管理 数据 (Chunk 存 储 在 哪 台 服务 器 的 信息 ) ， 主 控 服务 器 在 启动 时 
询问 每 个 Chunk 服 务 器 ， 之 后 靠 定期 询问 来 保持 最 新 的 信息 。 

除了 存储 管理 系统 元 信息 外 ， 主 控 服 务 器 主要 承担 一 些 系 统管 理工 
作 ， 比 如 创建 新 Chunk 及 其 备份 数据 ， 不 同 Chunk 服 务 器 之 间 的 负载 均 
衡 ， 如 果 某 个 Chunk 不 可 用 ， 则 负责 重新 生成 这 个 Chunk 对 应 的 备份 数 
据 ， 以 及 垃圾 回收 等 工作 。 

在 对 数据 进行 备份 和 迁移 的 时 候 ，GFS 重 点 考虑 两 个 因素 : 一 个 是 
Chunk 数 据 的 可 用 性 ， 即 如 果 发 现 Chunk 数 据 不 可 用 ， 要 及 时 重新 备 
份 ， 以 免 某 个 Chunk 的 所 有 备份 都 不 可 用 导致 数据 丢失 ， 另 外 一 个 要 尽 
可 能 减少 网 络 传输 压力 ， 因 为 在 不 同 机 器 间 传递 数据 ， 因 数据 量 巨大 ， 
所 以 尽 可 能 减少 网 络 传输 压力 对 于 系统 整体 性 能 表现 很 重要 。 


7.24 系统 交互 行为 


本 节 我 们 以 GFS 系 统 如 何 完成 写 操作 来 介绍 系统 中 各 个 组 成 部 分 的 
交互 行为 。 上 文 介绍 过 ， 出 于 系统 可 用 性 考虑 ，GEFS 系 统 为 每 份 Chunk 
保留 了 另外 两 个 备份 Chunk， 而 GFS 客 户 端 发 出 写 操作 请 求 后 ，GES 系 
统 必须 将 这 个 写 操作 应 用 到 Chunk 的 所 有 备份 ， 这 样 才 能 维护 数据 的 一 
致 性 。 为 了 方便 管理 ，GFS 对 于 多 个 相互 备份 的 Chunk， 从 中 选 出 一 个 
作为 主 备份 ， 其 他 的 被 称 做 次 级 备份 ， 由 主 备份 决定 次 级 备份 的 数据 写 
入 顺序 (参考 图 7-8) 。 























图 7-8 ”GFS 写 操作 


图 7-8 是 GFS 执 行 写 操作 的 整体 流程 。GFS 客 户 端 首先 和 主 控 服务 器 
通信 ， 获 知 哪些 Chunk 服 务 器 存储 了 要 写 入 的 Chunk， 包 括 主 备份 和 两 
个 次 级 备份 的 地 址 数据 。 之 后 ，GFS 客 户 端 将 要 写 入 的 数据 推送 给 3 个 
备份 Chunk， 备 份 Chunk 首 先 将 这 些 竺 写 入 的 数据 放 在 缓存 中 ， 人 然后 通 
知 GFS 客 户 端 是 否 接收 成 功 ， 如 宁 所 有 的 备份 都 接收 数据 成 功 ，GFS 客 
户 端 通知 主 备 份 可 以 执行 写 入 操作 。 主 备份 自己 将 缓存 的 数据 写 入 
Chunk 中 ， 通 知 次 级 备份 按照 指定 顺序 写 入 数据 ， 次 级 备份 写 完 后 答复 
主 备份 写 入 成 功 ， 主 备份 会 通知 GFS 客 户 端 这 次 写 操作 成 功 完成 。 

上 上 述 的 写 入 过 程 都 假设 每 个 步骤 成 功 完成 ， 实 际 上 ， 每 个 步骤 都 有 
可 能 出 现 问题 ，GFS 系 统 针对 这 些 可 能 问题 都 有 相应 的 处 理 措 施 ， 以 保 
证 数据 的 完整 性 和 可 用 性 。 


7.3 ”Chubby 锁 服务 


Chubby 是 Google 公 司 研 发 的 针对 分 布 式 系统 资源 管理 的 粗 粒 度 锁 服 
务 ， 一 个 Chubby 实 例 大 约 可 以 负责 1 万 台 4 核 CPU 机 器 之 间 对 资源 的 协同 
管理 。 这 种 锁 服 务 主要 的 功能 是 让 众多 客户 端 程序 进行 相互 之 间 的 同 
步 ， 并 对 系统 环境 或 者 资源 达成 一 致 认 知 。 

在 客户 端 程序 看 来 ，Chubby 好 像 是 一 个 类 似 于 文件 系统 的 目录 和 文 


件 管 理 系 统 ， 并 在 此 基础 上 提供 针对 目录 和 文件 的 锁 服 务 ，Chubby 的 文 
件 主要 存储 一 些 管理 信息 或 者 基础 数据 ，Chubby 要 求 对 文件 内 容 一 次 性 
全 部 读 完 或 者 写 入 ， 这 是 为 了 尽 可 能 抑制 客户 端 程 序号 入 大 量 数据 到 文 
件 中 ， 因 为 Chubby 的 目的 不 是 数据 存储 ， 而 是 对 资源 的 同步 管理 ， 所 以 
不 推荐 在 文件 中 保存 大 量 数据 。 同 时 ，Chubby 还 提供 了 文件 内 容 更 改 后 
的 通知 机 制 ， 客 户 端 可 以 订阅 某 个 文件 ， 当 文件 内 容 发 生变 化 或 者 一 些 
系统 环境 发 生变 化 ，Chubby 会 主动 通知 这 些 订阅 该 文件 的 客户 端 ， 以 使 
得 这 种 信息 变化 快速 传播 。 

Chubby 的 理论 基础 是 Paxos 一 致 性 协议 ，Paxos 是 在 完全 分 布 环境 
下 ， 不 同 客户 端 能 够 通过 交互 通信 并 投票 ， 对 于 某 个 决定 达成 一 致 的 算 
法 。Chubby 以 此 为 基础 ， 但 是 也 做 了 改造 ，Paxos 是 完全 分 布 的 ， 没 有 
中 心 管 理 节 点 ， 所 以 要 通过 多 轮 通信 和 投票 来 达成 最 终 一 致 ， 所 以 效率 
会 比较 低 ，Chubby 出 于 系统 效率 考虑 ， 增 加 了 一 些 中 心 管 理 策略 ， 在 达 
到 同一 目标 的 情况 下 改善 了 系统 效率 。 

在 GFS 中 ，Chubby 被 用 来 选举 哪 台 服 务 器 作为 主 控 服务 器 ， 在 
BigTable 中 ， 则 有 很 多 功能 : 选举 主 控 服务 器 ， 主 控 服 务 器 用 此 服务 来 
发 现 其 他 数据 存储 服务 器 ， 客 户 端 程序 根据 Chubby 来 找到 主 控 服 务 器 及 
在 Chubby 文 件 中 存储 部 分 管理 数据 等 ， 读 者 在 阅读 后 续 章 节 时 可 以 体会 
到 Chubby 的 具体 功能 和 作用 。 

Chubby 服 务 由 多 个 Chubby 单 元 构成 ， 每 个 Chubby 单 元 一 般 包含 5 台 
服务 器 ， 通 过 选举 的 方式 推举 其 中 一 台 作 为 主 控 服 务 器 ， 其 他 4 台 作 为 
备份 服务 器 ， 之 所 以 这 样 ， 主 要 是 防止 单 台 服务 器 死机 后 不 能 提供 服 
务 ， 多 台 机 器 可 以 在 某 台 主 控 服 务 器 不 能 提供 服务 时 ， 由 另外 一 人 台 机 器 
接管 〈 参 考 图 7-9) 。 



































Chubby 单元 
图 7-9 Chubby 体 系 结构 


主 控 服 务 器 由 所 有 机 器 选举 推出 ， 但 是 是 有 任期 的 ， 在 一 段 时 间 内 
由 选举 出 的 服务 器 充当 主 控 服务 器 ， 当 任期 期 满 后 ， 会 再 次 投票 选举 出 
新 的 主 控 服务 器 。 

所 有 客户 端 对 Chubby 的 读 / 写 请 求 都 由 主 控 服 务 器 来 负 贡 ， 主 控 服 
务 髓 遇 到 写 请 求 后 ， 会 更 改 维护 的 管理 数据 ， 而 其 他 所 有 备份 服务 器 只 
是 同步 管理 数据 到 本 地 ， 保 持 数据 和 主 控 服 务 器 一 致 ， 当 备份 ;机 器 接收 
到 请 求 时 ， 会 将 请 求 转发 给 主 控 服 务 器 ， 通 过 这 种 集中 式 管 理 ， 容 易 维 
护 管理 数据 的 一 致 性 。 

Chubby 问 外 提供 了 类 似 于 简单 文件 系统 的 接口 ， 树 形 结构 的 层级 目 
录 和 文件 构成 了 Chubby 管 理 的 数据 《参考 图 7-10) 。 比 如 茶 个 目录 节点 
的 名 称 为 : LS/foo/wombat/punch， 其 中 LS 是 整个 系统 中 最 高 层级 的 目 
录 ， 代 表 锁 服务 (Lock Service) ，foo 是 某 个 Chubby 单 元 的 名 称 ， 而 
wombat/punch 则 是 这 个 Chubby 单 元 管理 的 树 形 目录 结构 。 
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图 7-10” ”Chubby 的 树 形 目录 结构 


Chubby 在 这 个 树 形 目录 结构 中 提供 了 很 多 管理 功能 ， 比 如 针对 茶 个 
目录 或 者 文件 的 加 锁 服 务 ， 针 对 目录 或 者 文件 的 访问 权限 控制 ， 文 件 内 
容 存 取 及 事件 通知 机 制 。 通 过 这 种 结构 ， 可 以 有 效 实现 分 布 式 系统 中 的 
同步 协同 和 资源 管理 功能 。 








7.4 BigTable 





BigTable 是 一 种 针对 海量 结构 化 或 者 半 结 构 化 数据 的 存储 模型 ， 在 
Google 的 云 存储 体系 中 处 于 核心 地 位 ， 起 到 了 承上启下 的 作用 。GFS 是 
一 个 分 布 式 海量 文件 管理 系统 ， 对 于 数据 格式 没有 任何 假定 ， 而 
BigTable 以 GFS 为 基础 ， 建 立 了 数据 的 结构 化 解释 ， 对 于 很 多 实际 应 用 
来 说 ， 数 据 都 是 有 一 定格 式 的 ， 在 应 用 开发 者 看 来 ，BigTable 建 立 的 数 
据 模型 与 应 用 更 贴近 。MegaStore 存 储 模型 和 Percolator 计 算 模型 都 是 建 
立 在 BigTable 之 上 的 存储 和 计算 模型 。 从 此 可 看 出 ，BigTable 在 其 中 的 
地 位 之 重要 。 


7.4.1 ”BigTable 的 数据 模型 
所 谓 数 据 模型 ， 就 是 说 在 应 用 开发 者 眼 里 BigTable 是 怎样 的 一 种 结 





构 。BigTable 本 质 上 是 一 个 三 维 的 映射 表 ， 其 最 基础 的 存储 单元 是 由 
( 行 主 键 、 列 主键 、 时 间 ) 三 维 主键 (Key) 所 定位 的 。 

图 7-11 展 示 了 一 个 被 称 为 WebTable 的 具体 表格 ， 里 面 存 储 了 互联 网 
的 网 页 。 表 中 每 一 行 存储 了 某 个 网 页 的 相关 信息 ， 比 如 网 页 内 容 、 网 页 
MetaData 元 信息 、 指 向 这 个 网 页 的 链接 锚 文字 等 ， 每 行 以 网 页 的 逆转 
URL 作 为 这 一 行 的 主键 。BigTable 要 求 每 行 的 主键 一 定 是 字符 串 的 形 
式 ， 而 且 在 存储 表格 数据 时 ， 按 照 行 主键 的 字母 大 小 顺序 排序 存储 。 


"contents:” "anchor:cnnsi.com"  "“anchor:my.look.ca" 











"com.cnn.www" 
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图 7-11 ”BigTable 数 据 模 型 : WebTable 


BigTable 中 的 列 主键 包含 两 级 ， 其 中 第 1 级 被 称 为 列 家 族 (Column 
Families) ， 第 2 级 被 称 为 列 描述 符 〈Qualifier) ， 两 者 共同 组 成 一 个 列 
的 主键 ， Bp: 

列 主键 三 列 家 族 : MRE 

以 WebTable 表 为 例 ， 链 接 销 文字 组 成 一 个 列 家 族 anchor， 而 每 个 网 
页 的 URL 地 址 作为 列 描 述 符 。anchor: cnnsi.com 这 个 列 主键 代表 的 含义 
是 : 这 一 列 存储 的 是 cnnsi.com 这 个 网 页 指 辣 其 他 页 面 的 链接 销 文 字 。 

BigTable 内 可 以 保留 同一 信息 随 着 时 间 变 化 的 不 同 版 本 ， 这 个 不 同 
版 本 由 时 间 维 度 来 进行 表达 。 比 如 以 行 主键 com.cnn.www 和 列 主键 
anchor: cnnsi.com 定 位 的 信息 ， 代 表 了 网 页 www.cnnsi.com 指 回 
www.cnn.com 的 链接 锚 文字 ， 随 着 时 间 的 变化 ， 这 个 链接 锚 文 字 也 可 能 
会 不 断 更 改 ， 所 以 可 以 存储 多 个 更 改版 本 ， 比 如 例子 中 显示 的 T9 这 个 时 
间 的 销 文 字 内 容 为 CNN， 此 外 还 可 以 保留 其 他 时 间 的 销 文 字 信 息 。 

BigTable 的 数据 模型 粗 看 很 像 关 系 型 数据 库 的 关系 模型 ， 但 是 两 者 
有 乍 大 差别 ， 关 系 型 数据 库 的 列 在 设计 表格 之 初 就 已 经 指定 ， 而 
BigTable 是 可 以 随时 对 表格 的 列 进行 增删 的 ， 而 且 每 行 只 存储 列 内 容 不 
为 空 的 数据 ， 这 被 称 做 模式 自由 型 (Schema Free) 数据 库 。 

BigTable 是 个 分 布 式 的 海量 存储 系统 ， 成 百 上 干 台 机 右 为 应 用 的 相 
关 表 格 提供 存 取 服务 。 在 实际 存储 表格 信息 时 ， 会 将 表格 按照 行 主键 进 
行 切割 ， 将 一 段 相 邻 的 行 主键 组 成 的 辱 干 行 数据 作为 一 个 存储 单元 ， 这 











被 称 为 一 个 子 表 (Tablet) ， 表 格 由 子 表 构 成 ， 而 每 个 子 表 的 数据 交 由 
子 表 服务 器 来 进行 管理 。 图 7-12 是 这 种 情形 的 形象 说 明 。 
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图 7-12 ”BigTable 表 格 的 子 表 


BigTable 为 应 用 开发 者 提供 了 API， 利 用 这 些 API 可 以 创建 或 者 删除 
表格 ， 设 定 表 格 的 列 ， 插 入 删除 数据 ， 以 行为 单位 来 查询 相 关 数 据 等 操 
ee ee 
A 下 证 。 


7.4.2 ”BigTable 整 体 结构 


上 一 小 节 介 绍 了 BigTable 的 数据 模型 ， 在 应 用 开发 者 看 来 ， 
BigTable 就 是 由 很 多 类 似 于 WebTable 这 样 的 三 维 表格 共同 组 成 的 一 个 系 
统 ， 应 用 开发 者 只 需要 考虑 具体 应 用 包含 哪些 表格 ， 每 个 表格 对 应 包含 
哪些 列 ， 然 后 就 可 以 在 相应 的 表格 内 以 行为 单位 增删 内 容 。 至 于 具体 表 
格 是 如 何在 内 部 存储 的 则 交 由 BigTable 来 进行 管理 。 

图 7-13 是 BigTable 的 整体 结构 示意 图 ， 其 中 主要 包含 : 主 控 服 务 器 








(Master Server) 、 子 表 服 务 器 (Tablet Server) 和 客户 端 程序 
(Client) 。 每 个 表格 将 若干 连续 的 行 数据 划分 为 一 个 子 表 (Tablet) ， 
这 样 表格 的 数据 就 会 被 分 解 为 一 些 子 表 。 子 表 服 务 占 主要 负责 子 表 的 数 
据 存 储 和 管理 ， 同 时 需要 啊 应 客户 端 程序 的 读 / 写 请 求 ， 其 负责 管理 的 
子 表 以 GFS 文 件 的 形式 存在 ，BigTable 内 部 将 这 种 文件 称 之 为 SSTable， 
个子 表 就 是 由 子 表 服 务 器 磁盘 中 存储 的 若干 个 SSTable 文 件 组 成 的 ; 
主 控 服务 器 负责 整个 系统 的 管理 工作 ， 包 括 子 表 的 分 配 、 子 表 服 务 器 的 
负载 均衡 、 子 表 服 务 器 失效 检测 等 。 客 户 端 程序 则 是 具体 应 用 的 接口 程 
序 ， 直 接 和 子 表 服务 器 进行 通信 交互 ， 来 读 / 写 某 个 子 表 对 应 的 数据 。 
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图 7-13 ”BigTable 的 整体 结构 示意 图 


7.4.3 ”BigTable 的 管理 数据 





对 于 有 具体 应 用 来 说 ， 可 以 根据 需要 在 BigTable 系 统 中 创建 自己 的 表 
格 ， 每 个 表格 都 会 被 分 割 成 右 干 子 表 ， 并 存储 在 不 同 的 子 表 服 务 器 中 。 
那么 ，BigTable 如 何 知 道 每 个 子 表 存 储 在 哪 台 子 表 服 务 器 中 呢 ? 要 知道 
这 一 点 ， 需 要 维护 一 些 特殊 的 管理 数据 。 

BigTable 利 用 Chubby 系 统 和 一 个 被 称 为 元 数据 表 (MetaData 
Table) 的 特殊 表格 来 共同 维护 系统 管理 数据 (参见 图 7-14) 。 元 数据 表 
是 BigTable 中 一 个 起 着 特殊 作用 的 表 ， 这 个 表格 的 每 一 行 记载 了 整个 
BigTable 中 某 个 具体 子 表 存储 在 哪 台子 表 服 务 器 上 等 管理 信息 ， 但 是 它 
一 样 也 会 被 切割 成 若干 子 表 并 存储 在 不 同 的 子 表 服务 器 中 。 这 个 表 的 第 
1 个 子 表 被 称 为 Root 子 表 ， 用 来 记录 元 数据 表 自 身 除 Root 子 表 外 其 他 子 
表 的 位 置信 息 ， 因 为 元 数据 表 的 子 表 也 是 分 布 在 不 同 机 器 上 的 ， 通 过 
Root 子 表 的 记录 就 可 以 找到 元 数据 表 中 其 他 子 表 存 储 在 哪 台 机 器 上 ， 即 
通过 Root 子 表 可 以 找到 完整 的 元 数据 表 。 
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图 7-14 ”利用 Chubby 和 元 数据 表 来 共同 维护 系统 管理 数据 


元 数据 表 中 其 他 子 表 的 每 一 行 ， a 
的 表格 〈 用 户 表 ) 某 个 子 表 的 管理 数据 。 其 中 ， 每 一 行 以 用 户 表 表 名 和 
在 这 个 子 表 内 存储 的 最 后 一 个 行 主键 共 al gn ToL WER REN 
主键 ， 在 记录 行 的 数据 里 则 存储 了 这 个 子 表 对 应 的 子 表 服务 器 等 其 他 管 
理 信息 。 而 Chubby 中 茶 个 特殊 文件 则 指出 了 Root 子 表 所 在 的 子 表 服务 器 
地 址 。 这 样 ，Chubby 文 件 、Root 子 表 及 元 数据 表 中 的 其 他 子 表 构 成 了 三 
级 得 询 结构 ， 通 过 这 个 层级 结构 就 可 以 定位 具体 应 用 的 茶 个 子 表 放 置 在 
哪 合子 表 服务 器 上 。 


图 7-15 是 这 种 三 级 得 询 结构 的 示意 图 ， 假 设 某 个 客户 端 程序 需要 得 


























找 用 户 表 的 某 行 记录 ， 首 先 读 取 Chubby 系 统 中 的 特殊 文件 ， 从 这 个 文件 
可 以 得 知 Root 子 表 的 所 在 位 置 ， 然 后 根据 Root 子 表 获 知 元 数据 表 其 他 子 
表 所 在 位 置 ， 其 他 子 表 每 一 行 的 行 主键 是 由 用 户 表 表 名 和 对 应 子 表 最 后 
一 行 的 行 主键 共同 构成 的 ， 所 以 通过 和 要 查询 的 用 户 表 及 其 待 查 记录 的 
行 主键 比较 ， 就 可 以 知道 是 哪 台子 表 服 务 器 存储 着 这 条 记录 ， 之 后 客户 
ee ee ee ee eee 








图 7-15 ”三 级 查询 结构 


7.4.4 主 控 服务 器 (Master Server) 


主 控 服 务 喜 在 BigTable 中 专门 负责 管理 工作 ， 比 如 目 动 发 现 是 合 
新 的 子 表 服 务 嚣 加入， 是 否 有 子 表 服 务 器 因为 各 种 故障 原因 不 能 提供 服 
务 ， 是 否 有 些 子 表 服 务 器 负载 过 高 等 情况 ， 并 在 各 种 情况 下 负责 子 表 服 
务 器 之 间 的 负载 均衡 ， 保 证 每 个 子 表 服 务 器 的 负载 都 是 合理 的 。 

当主 控 服务 器 刚 被 局 动 时 ， 需 要 获知 子 表 的 分 配 情况 ， 图 7-16 是 主 
控 服 务 器 局 动 时 的 运行 流程 。 
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图 7-16 主 控 服务 器 启动 时 的 运行 流程 


Chubby 在 BigTable 的 正常 运转 过 程 中 起 了 很 大 的 作用 ， 不 但 在 其 中 
存储 了 最 基础 的 管理 数据 ， 还 提供 了 粗 粒 度 的 加 锁 服 务 。 在 Chubby 的 树 
形 结构 中 ， 有 一 个 特殊 的 Servers 目 录 ， 每 个 子 表 服 务 器 在 该 目录 下 生成 
对 应 的 文件 ， 记 载 了 这 个 子 表 服 务 器 的 IP 地 址 等 管理 信息 。 当 主 控 服 务 
器 启动 时 ， 首 先 在 Chubby 中 获得 一 个 Master 锁 ， 这 样 可 以 阻止 其 他 主 控 
服务 器 再 次 启动 ， 避 免 整个 系统 中 出 现 多 个 管理 节点 。 之 后 ， 主 控 服 务 
器 读 取 Servers 目 录 ， 从 该 目录 下 的 文件 可 以 获得 每 个 子 表 服务 器 的 地 址 
信息 。 获 得 地 址 信息 后 ， 在 之 后 的 管理 过 程 中 ， 主 控 服 务 器 就 可 以 直接 
和 子 表 服 务 器 进行 通信 。 在 启动 时 ， 主 控 服 务 器 和 子 表 服 务 器 通信 ， 获 
知 每 个 子 表 服 务 器 存储 了 哪些 子 表 并 记录 在 内 存 管理 数据 中 。 之 后 ， 主 
控 服 务 器 从 Chubby 的 root 节 点 可 以 读 取 MetaData 元 数据 ， 这 里 记载 了 系 
统 中 所 有 子 表 的 信息 ;通过 MetaData 和 子 表 服务 器 反馈 的 信息 ， 两 者 对 
比 ， 可 能 会 发 现 有 一 部 分 子 表 在 MetaData 中 ， 但 是 没有 子 表 服 务 器 负责 























存储 ， 说 明 这 些 子 表 是 未 获得 分 配 的 内 容 ， 所 以 将 这 些 子 表 信 息 加 入 一 
个 未 分 配子 表 集 合 中 ， 之 后 会 在 适当 的 时 机 ， 将 这 些 未 分 配子 表 分 配给 
负载 较 轻 的 子 表 服务 器 。 

当 有 新 的 子 表 服务 器 加 入 BigTable 系 统 中 ， 这 个 子 表 服 务 器 会 在 
Chubby 的 Servers 目 录 下 生成 对 应 的 文件 ， 主 控 服 务 器 通过 周期 性 地 扫 摘 
Servers 目 录 下 的 文件 可 以 很 快 获知 有 新 的 子 表 服 务 器 加 入 ， 之 后 可 以 将 
高 负载 的 其 他 子 表 服务 器 的 部 分 数据 ， 或 者 是 未 分 配子 表 中 的 数据 交 由 
新 加 入 的 服务 器 来 负责 管理 。 

主 控 服务 器 会 周期 性 地 询问 子 表 服 务 器 的 状态 ， 当 无 法 和 子 表 服务 
器 取得 联系 后 ， 会 将 Chubby 的 Servers 目 录 下 对 应 的 文件 删除 ， 并 将 这 个 
子 表 服务 器 负责 管理 的 子 表 放 入 未 分 配子 表 中 ， 之 后 会 将 这 些 子 表 分 配 
到 有 空 闪 空间 的 子 表 服 务 器 中 。 











7.4.5 ”了 于 表 服 务 器 (Tablet Server) 


子 表 服务 器 是 BigTable 系 统 中 用 来 存储 和 管理 子 表 数 据 的 ， 从 具体 
功能 来 讲 ， 子 表 服 务 器 支持 以 下 功能 : 

， 存储 管理 子 表 数据 ， 包 括 子 表 存储 、 子 表 恢复 、 子 表 分 裂 、 子 

响应 客户 端 程序 对 子 表 的 写 请 求 。 

响应 客户 端 程序 对 子 表 的 读 请 求 。 


1. 更 新 子 表 数 据 


对 子 表 内 容 的 更 新 包括 插入 或 删除 行 数据 ， 或 者 插入 删除 某 行 的 某 
个 列 数据 等 操作 。 

图 7-17 是 子 表 服 务 器 响应 客户 端 程序 更 新 操作 的 流程 图 ， 当 子 表 服 
务 器 接收 到 数据 更 新 请 求 时 ， 首 先 将 更 新 命令 记 入 CommitLog 文 件 中 ， 
之 后 将 更 新 数据 写 入 内 存 中 的 MemTable 结 构 中 ， 当 MemTable 里 容纳 的 
数据 超过 设 定 大 小 时 ， 将 内 容 输出 到 GFS 文 件 系 统 中 ， 形 成 一 个 新 的 
SSTable 文 件 。 一 个 具体 的 子 表 数据 就 是 由 若干 个 陆续 从 MemTable 产 生 
的 SSTable 文 件 构 成 的 。 























图 7-17 更 新 操作 


在 BigTable 系 统 中 ， 所 有 对 子 表 的 更 新 操作 都 是 在 内 存 中 完成 的 ， 
MemTable 即 是 内 存 中 开辟 的 绥 冲 区， 用 来 容纳 子 表 的 数据 更 新 内 容 。 
对 于 一 个 分 布 式 存储 系统 来 说 ， 系 统 故 障 经 常 发 生 。 假 设 在 MemTable 
还 没有 将 内 存 更 新 内 容 输出 到 SSTable 的 时 候 ， 子 表 服 务 器 宕 机 ， 那 么 
MemTable 的 数据 会 丢失 。CommitLog 的 引入 就 是 为 了 防止 这 种 情况 发 
生 ， 因 为 在 写 入 MemTable 之 前 的 所 有 操作 都 在 CommitLog 中 记录 ， 即 
' i 表 服 务 器 宕 机 ， 也 可 以 根据 CommitLog 的 命令 再 次 恢复 MemTable 

SSTable 是 BigTable 内 部 用 来 存储 数据 的 文件 ， 其 具有 特定 的 格式 。 
图 7-18 体 现 了 SSTable 的 格式 信息 。 每 个 SSTable 划 分 为 两 块 : 数据 存储 
区 和 索引 区 。 数 据 存 储 区 用 来 存储 具体 的 数据 ， 本 映 又 被 划分 成 小 的 数 
据 块 ， 每 次 读 取 的 单位 就 是 一 个 数据 块 。 索 引 区 记载 了 每 个 数据 块 存储 
的 行 主键 范围 及 其 在 SSTable 中 的 位 置信 息 。 当 BigTable 打 开 一 个 
SSTable 文 件 的 时 候 ， 系 统 将 索引 区 加 载 入 内 存 ， 当 要 读 取 一 个 数据 块 
时 ， 首 先 在 内 存 中 的 数据 块 索引 中 利用 二 分 查找 ， 快 速 定 位 某 条 行 记 录 
中 的 位 置信 息 ， 之 后 就 可 以 根据 位 置信 息 一 次 性 读 取 某 个 数 
FIR 




















图 7-18 SSTable 结 构 


2. 读 取 子 表 数 据 


由 上 面 叙 述 可 知 ， 一 个 子 表 是 由 内 存 中 的 MemTable 和 GFS 中 存储 
的 若干 SSTable 文 件 构 成 的 。 在 MemTable 和 SSTable 中 存储 的 数据 都 是 按 
照 行 主键 的 字母 顺序 排序 的 ， 所 以 很 容易 将 这 些 文件 看 做 一 个 按照 行 主 
键 排 好 序 的 整体 序列 结构 ， 而 读 取 操作 就 是 首先 查找 数据 的 存储 位 置 ， 
如 果 找 到 则 读 出 数据 。 由 于 SSTable 在 GFS 文 件 系 统 中 ， 为 了 加 快 查找 
速度 ，BigTable 除 了 块 索 引 外 ， 还 引入 了 布 隆 过 滤器 (Bloom Filter) 算 
法 ， 这 种 算法 只 占用 少量 内 存 ， 就 可 以 快速 判断 某 个 SSTable 文 件 是 否 
包含 要 读 取 数据 的 主键 ， 这 样 对 于 很 多 读 操 作 ， 避 免 了 在 磁盘 中 查找 ， 
加 快 读 取 速度 (参考 图 7-19)。 











7-19. 读 操作 
3. SSTable 合 并 


如 果 SSTable 数 量 过 多 ， 会 影响 系统 读 取 效率 ， 所 以 子 表 服务 器 会 
周期 性 地 对 子 表 的 SSTable 和 MemTable 进 行 合并 。 根 据 合 并 规模 的 差 
异 ， 存 在 3 种 不 同类 型 的 合并 策略 : 微 合 并 (Minor Compaction) 、 部 分 
AJF (Merging Compaction) 及 主 合 并 (Major Compaction) 《参考 图 7- 
20) 。 
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图 7-20 SSTable 合 并 


当 MemTable 写 入 数据 过 多 ， 会 将 内 存 中 的 数据 写 入 磁盘 中 一 个 新 
的 SSTable 中 ， 这 个 过 程 被 称 为 微 合 并 。 这 种 合并 有 两 种 功能 : 首先 ， 
可 以 减少 内 存 消 耗 量 ， 其 次 ， 由 于 MemTable 内 数据 量 不 会 无 限制 增 
长 ， 即 使 这 个 子 表 服 务 器 宕 机 后 重启 ， 系 统 根据 CommitLog 恢 复 
MemTable 的 速度 也 会 较 快 。 

把 MemTable 的 内 容 和 部 分 SSTable 合 并 的 过 程 叫 做 部 分 合并 ， 通 过 
部 分 合并 ， 可 以 减少 SSTable 的 数量 ， 增 加 读 操 作 的 效率 。 而 将 
MemTable 和 所 有 SSTable 进 行 合 并 的 过 程 被 称 为 主 合 并 ， 这 种 合并 周期 
的 执行 ， 使 得 所 有 子 表 数据 集中 到 一 个 SSTable 中 。 同 时 ， 在 合并 过 程 
中 ， 会 将 已 经 标记 为 “删除 ”的 记录 抛弃 ， 有 效 回 收 存 储 资源 。 








4. TRKE (Tablet Recovery) 





当 子 表 服 务 器 死机 后 ，BigTable 提 供 了 完善 的 子 表 恢复 机 制 〈 人 参考 
图 7-21) 。 当 死机 的 子 表 服 务 顺 重 新 局 动 后 ， 会 从 元 数据 子 表 
(MetaData) 中 读 取 管 理 信 息 ， 包 括 子 表 服 务 器 负责 管理 的 子 表 对 应 哪 





些 SSTable 文 件 ， 以 及 CommitLog 对 应 的 恢复 点 〈Redo Point) 。 根 据 
CommitLog 恢 复 点 ， 子 表 服 务 器 可 以 找到 CommitLog 的 对 应 位 置 ， 恢 复 
从 这 个 位 置 之 后 的 所 有 更 新 行为 到 MemTable 中 ， 这 样 就 完成 了 
MemTable 的 重建 工作 。 从 元 数据 子 表 中 读 取 到 对 应 的 SSTable 文 件 后 ， 
子 表 服务 髓 将 对 应 的 SSTable 的 块 索引 读 入 内 存 ， 这 样 就 能 够 完全 恢复 
到 死机 前 的 状态 。 从 这 个 过 程 可 以 看 出 CommitLog 的 具体 功能 。 


il 




















图 7-21 BigTable 提 供 的 子 表 恢复 机 制 

除了 上 述 功能 之 外 ， 子 表 服 务 器 还 负责 子 表 分 裂 的 管理 ， 当 茶 个 子 
表 存 储 的 数据 量 过 大 ， 会 将 其 分 裂 为 两 个 均等 大 小 的 子 表 ， 并 将 相应 的 
管理 信息 传递 到 元 数据 子 表 中 记录 ， 之 后 的 数据 更 新 及 读 取 分 别 在 相应 
的 子 表 中 进行。 


7.5 ”Megastore 系 统 





Google 的 绝 大 多 数 应 用 是 建立 在 GFS 文 件 系统 和 BigTable 存 储 系统 
之 上 的 ， 从 前 述 章节 关于 这 两 个 存储 系统 的 运行 机 制 可 以 看 出 ， 这 套 系 


统 比较 适合 做 大 量 数据 的 后 台 计 算 ， 对 于 实时 交互 的 应 用 场景 来 说 ， 并 
非 这 套 系 统 的 优势 应 用 场合 。 

时 移 世 变 ， 目 前 大 多 数 互联 网 应 用 中 相当 重要 的 一 部 分 需要 与 用 户 
进行 实时 交互 ， 如 何 针 对 这 些 应 用 的 特点 构造 海量 存储 系统 ? 这 是 非常 
有 具有 挑战 性 的 问题 。Megastore 即 是 Google 针 对 这 类 应 用 上 自行 研发 的 海量 
存储 系统 。 

我 们 首先 看 下 这 类 应 用 本 吴 对 存储 系统 有 哪些 特殊 的 要 求 。 首 先 ， 
由 于 数据 量 太 大 ， 需 要 系统 具有 高 可 扩展 性 (Scalability) ， 这 对 海量 
存储 系统 来 说 是 一 项 非常 基础 的 要 求 。 其 次 ， 对 互联 网 应 用 来 说 ， 推 出 
时 间 早 晚 其 最 终 的 结局 可 能 差异 很 大 ， 所 以 存储 系统 应 该 文 持 应 用 的 快 
速 开发 和 部 晋 。 再 次 ， 因 为 是 实时 与 用 户 交 互 ， 所 以 数据 读 / 写 要 求 满 
足 高 速度 低 延 迟 的 要 求 。 另 外 ， 存 储 系统 应 该 能 够 保证 数据 的 一 致 性 要 
求 ， 人 否则 用 户 写 入 数据 后 看 到 的 仍然 是 过 时 的 老 数 据 ， 其 体验 可 想 而 
知 。 同 时 ， 系 统 要 具有 高 可 用 性 (Availability) ， 即 使 服务 提供 方 内 部 
出 现 大 规模 故障 ， 也 应 该 保证 用 户 仍 然 可 用 服务 。 

上 面 这 些 对 存储 系统 的 要 求 有 些 是 有 内 在 矛盾 的 ， 在 所 有 方面 做 到 
最 优 不 太 可 能 ， 问 题 就 成 为 了 : 如 何 提供 一 种 折 中 方案 ， 能 够 在 几 者 之 
间 取 得 平衡 。 

目前 解决 大 规模 数据 存储 有 两 种 不 同 的 解决 方案 ， 一 种 是 传统 的 数 
据 库 方式 ， 这 种 方法 提供 保证 数据 一 致 性 的 接口 ， 而 且 开 发 者 使 用 起 来 
非常 简单 ， 开 发 成 本 低 ， 但 是 这 种 方法 可 扩展 性 不 高 ， 面 对 超大 规模 数 
据 无 能 为 力 。 另 外 一 个 方式 是 NoSQL 的 方法 ，BigTable 就 是 一 种 典型 的 
NoSQL 技 术 方 案 ， 这 种 方案 可 扩展 性 强 、 可 用 性 高 ， 能 够 处 理 超大 规模 
数据 存储 ， 但 是 往往 无 法 保证 数据 的 强 一 致 性 ， 比 如 BigTable 只 能 对 行 
数据 提供 事务 文 持 ， 对 跨行 跨 表 操 作 的 数据 一 致 性 无 法 保证 。 

Megastore 考 虑 到 需求 的 矛盾 性 及 日 前 数据 库 方案 和 NoSQL 方 案 各 
自 的 优 缺 点 ， 和 希望 能 够 找到 一 条 折 中 的 技术 路 线 ， 既 能 够 提供 NoSQL 方 
案 的 高 扩展 性 ， 又 能 够 吸取 数据 库 方 案 的 强 数据 一 致 性 保证 。 

Megastore 的 基本 思路 是 : RRA AU i ET A EE, Wo aM 
E FKF (Entity Group) ， 在 实体 群 组 内 提供 满足 ACID 语义 的 强 
数据 一 致 性 服务 ， 但 是 在 实体 群 组 之 间 提 供 相 对 弱 些 的 数据 一 致 性 保 
证 。 利 用 改造 的 Paxos 协 议 来 将 数据 分 布 到 多 个 数据 中 心 ， 这 样 同时 满 
足 了 数据 请 求 的 高 速度 低 延 迟 及 高 可 用 性 ， 可 用 性 是 通过 将 数据 分 布 到 
不 同 数据 中 心 获得 的 ， 而 数据 请 求 的 高 速度 低 延 迟 则 是 靠 优 化 后 的 
Paxos 协 议 来 保证 的 。 



































7.5.1 ”实体 群 组 切 分 


图 7-22 是 实体 群 组 切 分 及 其 在 各 个 数据 中 心 分 布 的 示意 图 ， 
Megastore 将 数据 切割 成 很 多 细 粒 度 的 实体 群 组 ， 每 个 实体 群 组 会 同时 
分 布 到 不 同 的 数据 中 心 ，Megastore 利 用 Paxos 协 议 保证 实体 群 组 内 数据 
具有 ACID 语义 的 强 一 致 性 ， 不 同 实体 群 组 则 提供 了 较 弱 的 数据 一 致 
tee ae Mee eset Ree ae eee 





图 7-22 ”实体 群 组 切 分 及 其 在 各 个 数据 中 心 分 布 的 示意 


实体 群 组 之 间 采 用 消息 队列 的 方式 完成 跨 群 组 的 事务 操作 ， 图 7-23 
是 这 种 机 制 的 说 明 ， 实 体 群 组 1 发 出 一 个 消息 ， 将 事务 追加 到 消息 队列 
中 ， 实 体 群 组 2 接收 消息 队列 中 自己 对 应 的 消息 事务 并 对 数据 做 出 更 
改 。Megastore 对 路 群 组 的 事务 采用 了 两 阶段 提交 的 方式 (Two Phrase 
Commit) ， 这 种 方法 相对 耗 时 ， 但 是 由 于 大 部 分 数据 更 新 操作 发 生 在 
实体 群 组 内 部 ， 所 以 从 系统 总 体 效率 来 说 问题 不 大 。 另 外 ，Megastore 
还 提供 了 实体 群 组 内 的 局 部 索引 和 全 局 范围 的 全 局 索引 。 














全 局 索引 





消息 队列 











图 7-23 ”实体 群 组 间 通 信 


大 部 分 应 用 都 可 以 找到 很 自然 的 实体 群 组 切 分 方法 ， 以 电子 邮件 应 
用 为 例 ， 每 个 不 同 的 用 户 账 号 就 是 一 个 个 目 然 的 实体 群 组 ， 每 个 账号 的 
邮件 操作 应 该 具有 事务 文 持 及 强 数据 一 致 性 ， 比 如 用 户 将 一 封 邮件 标记 
为 重要 ， 则 应 该 立即 可 以 看 到 标记 结果 ， 但 是 用 户 A 发 送 给 用 户 B 的 邮 
件 〈 不 同 实体 群 组 ) 即使 在 时 间 上 有 些 短暂 延迟 ， 问 题 也 不 大 。 


7.5.2 ”数据 模型 


Megastore 的 数据 模型 介 于 关系 数据 库 和 NoSQL 存 储 系统 的 数据 模 
型 之 间 ， 数 据 模型 由 一 个 模式 (Schema) 定义 ，Schema 下 面 可 以 定义 
不 同 的 表 (Table) ， 每 个 表 可 以 包含 不 同 的 属性 (Property) ， 对 于 某 
个 表 来 说 ， 其 中 部 分 属性 是 表 的 主键 (Key) 。Megastore 中 有 两 种 表 : 
实体 群 组 主 表 (Root Table) 和子 表 (Child Table) ， 子 表 归 属 主 表 管 
辖 ， 并 且 要 求 子 表 的 每 条 记录 需要 有 外 键 指 癌 主 表 。 

我 们 以 一 个 照 厂 分 享 应 用 作为 实例 来 说 明 Megastore 的 数据 模型 ， 

图 7-24 是 其 示意 图 。 这 个 应 用 包含 两 个 表格 ， 用 户 表 作为 主 表 ， 每 条 记 
录 包 含 用 户 ID 和 用 户 名 两 个 属性 ， 其 中 用 户 ID 是 这 个 主 表 的 主键 。 照 万 














表 是 用 户 表 的 子 表 ， 包 含 了 很 多 与 照片 有 关 的 信息 作为 表 的 属性 ， 其 中 
用 户 ID 和 照片 ID 共同 构成 了 表 的 主键 ，Megastore 的 表 属 性 支持 可 重复 
属性 ， 比 如 例子 中 照片 的 Tag 属 性 ， 代 表 用 户 给 照片 打上 的 文本 标签 ， 
因为 用 户 可 以 给 同一 个 照片 打上 多 个 标签 ， 所 以 这 个 属性 是 可 重复 的 。 
照片 表 中 的 用 户 D 属 性 是 指 同 主 表 的 外 键 ， 即 其 属性 代表 的 含义 是 相同 
的 。 主 表 中 的 一 个 实体 及 其 所 有 子 表 中 有 人 外 键 指 癌 这 个 实体 的 所 有 信息 
组 成 了 一 个 实体 群 组 ， 在 这 个 应 用 中 ， 每 个 用 户 的 信息 和 所 有 归属 这 个 
用 户 的 照片 相关 信息 组 成 了 一 个 实体 群 组 。 


| | | |/scnema:pnoteare | 























图 7-24 ”Megastore 数 据 模型 示例 


根据 图 7-24 中 两 个 表 的 示例 可 以 看 出 ， 例 子 应 用 中 包含 两 个 实体 群 
组 ， 用 户 “ 张 三 "有 两 张 照 片 ,，“ 李 四 ”也 拥有 两 张 照 片 ， 用 户 “ 张 三 ”和 用 
户 “ 李 四 ”及 其 所 有 照片 信息 各 自 是 一 个 实体 群 组 。 

Megastore 使 用 BigTable 来 存储 数据 ，BigTable 的 列 属性 由 Megastore 
的 表 名 和 属性 名 共同 构成 ， 同 一 个 实体 群 组 尽管 属于 不 同 的 表 ， 但 是 在 
BigTable 中 是 顺序 存储 的 ， 这 样 有 利于 按照 实体 群 组 快速 存 取 数 据 。 图 
7-25 展 示 了 上 面 所 举 的 例子 在 BigTable 中 是 如 何 存储 的 。 比 如 用 户 “ 张 
ae ial 的 数据 顺序 存储 在 BigTable 中 ， 用 户 “ 李 四 ”数据 的 存储 

是 如 此 。 


















照片 表 .Tag 





BigTable 中 存储 的 数据 格式 
7.5.3 ”数据 读 / 写 与 备份 


Megastore 以 实体 群 组 为 单位 ， 将 每 份 数 据 备份 在 多 个 数据 中 心 ， 
其 利用 优化 的 Paxos 协 议 来 保持 备份 数据 之 间 的 数据 一 致 性 。 原 始 的 
Paxos 协 议 可 以 保证 分 布 式 环 境 下 的 数据 强 一 致 性 ， 但 是 效率 太 低 ， 影 
啊 数 据 可 用 性 ，Megastore 通 过 加 入 中 心 控 制 策略 ， 有 效 地 增加 了 Paxos 
的 执行 效率 ， 保 证 了 数据 的 可 用 性 。 

通过 优化 的 Paxos 协 议 ，Megastore 可 以 保证 不 论 用 户 发 出 的 读 / 写 
操作 从 哪个 备份 数据 发 起 ， 都 可 以 维持 数据 的 强 一 致 性 。 对 于 写 操作 来 
说 ， 需 要 在 数据 中 心 之 间 进 行 通信 来 保证 数据 一 致 性 ， 而 对 于 读 操 作 来 
说 ， 因 为 写 操作 已 经 保证 了 数据 的 一 致 性 ， 所 以 可 以 在 任意 一 个 数据 中 
心 保留 的 备份 数据 上 进行 读 取 。 

通过 优化 的 Paxos 协 议 ，Megastore 实 现 了 数据 的 可 用 性 及 低 延 迟 等 
存储 要 求 的 较 好 折 中 。 


图 7-25 











7.6 Map/Reduce 云 计算 模型 








Map/Reduce 是 Google 公 司 针 对 海量 信息 处 理 提出 的 非常 车 名 的 云 计 
算 模 型 ， 目 前 包括 Hadoop 等 众多 的 开源 系统 都 采纳 了 这 一 方法 ， 已 经 成 
为 了 主流 云 计算 模型 。 

Map/Reduce 不 仅 是 一 种 计算 模型 ， 同 时 也 是 系统 提供 的 一 个 计算 框 
架 ， 也 就 是 说 ， 这 个 计算 框架 负责 将 应 用 程序 的 计算 任务 目 动 分 配 到 众 
多 机 器 上 ， 并 对 机 器 失效 等 情况 自动 进行 检测 跟踪 ， 应 用 开发 者 只 需要 


关注 应 用 任务 本 身 要 完成 的 工作 ， 至 于 底层 的 分 布 式 管理 工作 完全 交 由 
这 个 计算 框架 来 完成 ， 这 样 大 大 加 快 了 应 用 的 开发 进度 。 


7.6.1 计算 模型 


图 7-26 展 示 了 Map/Reduce 计 算 模 型 的 基本 思路 。 输 入 数据 是 由 
Key/Value 数 值 对 组 成 的 一 组 记录 ， 通 过 Map 操 作 ， 将 其 转换 为 新 的 
Key1/Valuel 数 值 对 ， 输 入 数据 的 每 条 记录 可 能 生成 多 条 中 间 数 据 记 
录 。Reduce 操 作 则 将 中 间 数 据 里 相同 Key 的 Value 值 进行 累加 等 处 理 〈 如 
图 7-26 所 示 中 间 数 据 记录 中 的 网 格 线 和 和 斜纹 线 代表 不 同 的 Key 值 ) ， 生 
成 Key1/Value2 这 种 汇总 的 记录 形式 。 对 于 应 用 开发 者 来 说 ， 只 需要 写 
好 Map 和 Reduce 两 个 操作 的 代码 ， 其 他 工作 都 由 Map/Reduce 框 架 完 成 。 
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图 7-26 ”Map/Reduce 计 算 模 型 的 基本 思路 


我 们 以 一 个 简单 的 例子 来 说 明 ， 假 设 应 用 开发 的 任务 是 : 给 定 一 个 
网 页 集合 ， 统 计 网 页 中 的 每 个 单词 的 出 现 次 数 。 图 7-27 是 这 个 简单 示例 
对 应 的 Map/Reduce 任 务 示 意图 。 假 设 网 页 集合 由 4 个 网 页 构成 ， 其 对 应 
的 DocID 分 别 是 D1、D2、D3 和 D4， 这 是 每 个 输入 数据 记录 的 Key， 输 
入 数据 记录 的 Value 就 是 这 个 网 页 包含 的 单词 ， 简 单 起 见 ， 我 们 假设 总 
共有 两 个 单词 wl1 和 w2。Map 操 作对 每 个 输入 数据 记录 的 Value 值 进行 转 
化 ， 比 如 对 于 网 页 D1 来 说 ， 其 包含 两 个 单词 w1 和 w2， 所 以 将 其 转化 为 
两 个 中 间 数 据 记 录 : <w1,1> 和 <w2,1>， 其 代表 含义 是 wl 出现 过 1 次 ，w2 
出 现 过 1 次 。 其 他 文档 经 过 Map 操 作 后 也 形成 类 似 的 中 间 结 果 ， 在 中 间 
结果 里 ， 记 录 的 Key 就 是 单词 ， 而 对 应 的 Value 则 是 其 出 现 次 数 ， 在 这 里 
都 是 数值 1。Reduce 操 作 针 对 中 间 数 据 进行 合并 ， 将 相同 Key 的 Value 值 





累加 ， 得 到 最 终 的 输出 结果 : <w12> 和 <w2,4>， 即 单词 w1 在 这 个 网 页 
集合 里 出 现 过 2 次 ， 单 词 w2 在 网 页 集合 里 出 现 过 4 次 。 这 样 就 完成 了 应 
用 任务 ， 统 计 出 了 每 个 单词 的 总 共 出 现 次 数 。 
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图 7-27 简单 示例 对 应 的 Map/Reduce 任 务 示意 图 


7.6.2 ”整体 逻辑 流程 


Map/Reduce 是 针对 海量 数据 的 分 布 式 云 计算 模型 ， 上 述 小 节 只 是 叙 
述 其 基本 原理 ， 如 果 面 临海 量 数据 ， 需 要 多 台 机 器 分 工 协作 完成 整个 计 
算 任务 ， 图 7-28 展 示 了 Map/Reduce 整 个 框架 的 逻辑 流程 。 


















O BRS O 
5 


z 
| B | 
| 


‘Mapper | Mapper | = 
l | 
biner ` Combiner = r 
i 
| 分割 器 | AE Ema 











Shuffle 


Reduced ) _ Reducer 


图 7-28 Map/Reduce 整 个 框架 的 逻辑 流程 


Map/Reduce 框 架 首 先 将 应 用 任务 的 数据 进行 切 制 ， 把 巨大 的 原始 输 
入 数据 切割 成 固定 大 小 的 片段 ， 之 后 将 数据 分 发 到 不 同 的 机 器 上 ， 同 时 
对 每 个 数据 片段 启动 一 个 Mapper 任 务 ， 来 对 这 个 数据 片段 进行 Map 操 
作 ， 数 据 经 过 Map 操 作 后 转换 为 新 的 Key/Value 形 式 ， 这 种 中 间 数 据 存 储 
在 本 地 机 器 中 。Combiner 任 务 的 目的 是 对 本 地 的 中 间 数 据 相 同 Key 的 
Value 值 先行 汇总 ， 主 要 目的 是 减少 后 续 将 中 间 数 据 通 过 网 络 传输 给 
Reducer 的 数据 传输 量 ， 减 少 网 络 人 负载， 分 割 器 将 中 间 结 果 根 据 其 Key 值 
进行 哈 希 取 模 运算 〈 即 Hash(Key)modR) ， 将 中 间 结 果 据 此 分 成 R 份 ， 
这 里 的 R 是 Reducer 的 数目 ， 这 么 做 的 目的 是 让 每 个 Reducer 只 负责 汇总 





其 中 的 一 部 分 数据 。 多 个 Reducer 位 于 其 他 机 器 上 ， 通 过 网 络 传输 将 自 
己 应 该 负责 的 各 个 Mapper 产 生 的 中 间 结 果 取 到 本 地 ， 并 按照 中 间 结 果 记 
录 的 Key 进 行 排序 ， 之 后 就 可 以 对 这 个 数据 进行 Reduce 操 作 ， 将 相同 
Key 的 记录 Value 值 进行 汇总 计算 ， 得 到 最 终 计算 结 

Map/Reduce 计 算 模 型 本 质 上 是 通过 分 而 治之 的 思想 ， 多 机 协作 来 对 
数据 集合 进行 全 局 性 的 统计 。 在 实际 应 用 中 ， 往 往 是 多 个 Map/Reduce 了 了 
任务 先后 串联 ， 前 面 的 Map/Reduce 输 出 结果 作为 后 续 Map/Reduce 任 务 
的 输入 数据 ， 类 似 流水 线 一 样 共同 完成 复杂 计算 任务 。 


7.6.3 ”应 用 示例 


上 文 举 了 个 简单 例子 来 说 明 Map/Reduce 的 基本 思想 ， 本 节 用 网 页 去 
重 和 建立 倒 排 索引 这 两 个 稍微 复杂 些 的 例子 来 说 明 Map/Reduce 的 具体 应 
用 。 

这 里 的 网 页 去 重 采 用 简单 策略 ， 目 标 是 将 网 页 集合 内 所 有 内 容 相同 
的 网 页 找 出 来 ， 采 取 对 网 页 内 容 取 哈 希 值 的 方法 ， 比 如 MD5， 如 有 果 两 个 
网 页 的 MD5 值 相同 ， 则 可 以 认为 网 页 内 容 完全 相同 。 

在 Map/Reduce 框 架 下 ， 输 入 数据 是 网 页 本 喘 ， 可 以 用 网 页 的 URL 作 
为 输入 数据 的 Key， 网 页 内 容 是 输入 数据 的 Value; Map 操 作 则 对 每 个 网 
页 的 内 容 利用 MD5 计 算 哈 希 值 ， 以 这 个 哈 希 值 作为 中 间 数 据 的 Key， 网 
页 的 URL 作 为 中 间 数 据 的 Value; Reduce 操 作 则 将 相同 Key 的 中 间 数 据 对 
应 的 URL 建 立成 一 个 链表 结构 ， 这 个 链表 代表 了 上 共有 相同 网 页 内 容 哈 希 
值 的 都 有 哪些 网 页 。 这 样 就 完成 了 识别 内 容 相同 网 页 的 任务 。 

对 于 建立 倒 排 索引 这 个 任务 来 说 ， 输 入 数据 也 是 网 页 ， 以 网 页 的 
DocID 作 为 输入 数据 的 Key， 网 页 中 出 现 的 单词 集合 是 输入 数据 的 
Value; Map 操 作 将 输入 数据 转化 为 <word,DocID> 的 形式 ， 即 某 个 单词 
作为 Key，DocID 作 为 中 间 数 据 的 Value， 其 含义 是 单词 word 在 DocID 这 
个 网 页 出 现 过 ;，Reduce 操 作 将 中 间 数 据 中 相同 Key 的 记录 融合 ， 得 到 某 
个 单词 对 应 的 网 页 ID 列表 : <word,List(DocID)>。 这 就 是 单词 word 对 应 
的 倒 排列 表 。 通 过 这 种 方式 加 可 以 建立 简单 的 倒 排 索 引 ， 在 Reduce 阶 段 
也 可 以 做 些 复杂 操作 ， 获 得 形式 更 为 复杂 的 倒 排列 表 。 

在 实际 的 搜索 引擎 中 ， 在 建立 索引 之 前 往往 首先 对 网 页 去 重 ， 上 面 
两 个 例子 可 以 依次 串联 起 来 ， 即 先 用 Map/Reduce 方 式 对 网 页 去 重 ， 之 后 
根据 去 重 后 的 网 页 来 建立 倒 排 索引 ， 将 两 个 Map/Reduce 任 务 串联 起 来 形 
成 更 加 复杂 的 任务 。 
































7.7 ”咖啡 因 系 统 


2010 年 6 月 ，Google 公 司 宣布 咖啡 因 系 统 上 线 ， 这 是 一 种 新 的 索引 
更 新 方式 ， 几 乎 可 以 实时 对 抓 取 到 的 内 容 进行 更 新 并 体现 在 搜索 结 
内 。 据 说 该 系统 上 线 后 影响 了 15% 互 联网 网 页 的 搜索 排名 ， 其 实 从 其 功 
能 来 讲 ， 咖 啡 因 系 统 并 没有 对 搜索 排序 因素 做 出 改变 ， 不 会 对 搜索 排名 
本 映 有 直接 影响 ， 只 不 过 随 独 更 新 周期 的 缩短 ， 使 得 新 更 新 的 网 页 内 容 
更 快 体 现在 搜索 结果 上 ， 或 许 是 最 近 更 新 网 页 新 增加 的 内 容 导 致 网 页 用 
户 碍 询 更 相关 ， 所 以 造成 了 更 新 网 页 的 排名 上 升 ， 影 响 到 内 容 没 有 更 新 
的 网 页 ， 给 人 的 外 部 观感 是 直接 影响 了 搜索 排名 。 

咖啡 因 系 统 是 外 部 代号 ， 其 对 应 的 内 部 项 目 名 称 叫 做 Percolator， 这 
本 质 上 是 构建 在 BigTable 上 的 一 种 与 Map/Reduce 计 算 方式 互补 的 云 计算 
模式 ， 主 要 用 来 对 搜索 引擎 的 索引 系统 进行 快速 增 量 更 新 。 在 部 署 咖啡 
因 系 统 之 前 ，Google 搜 索 的 索引 更 新 是 利用 Map/Reduce 机 制 周期 性 全 量 
更 新 的 ， 也 就 是 说 ， 每 隔 一 段 日 期 ， 将 新 抓 取 的 网 页 和 原来 抓 取 到 的 网 
页 作为 一 个 整体 ， 利 用 Map/Reduce 重 新 建立 一 过 索引 ， 很 明显 ， 这 种 方 
式 更 新 周期 比较 长 。 在 部 署 咖啡 因 系统 之 后 ， 索 引 系统 可 以 做 到 增 量 更 
新 ， 对 于 新 抓 取 到 的 网 页 ， 可 以 立即 更 新 到 索引 系统 里 ， 新 的 索引 更 新 
周期 比 原先 的 方式 快 了 大 约 100 倍 左右 。 

咖啡 因 系统 作为 一 种 增 量 更 新 模式 ， 并 不 是 Map/Reduce 的 蔡 代 品 ， 
两 者 各 有 所 长 ， 起 到 互补 作用 。 如 果 是 全 局 性 的 统计 工作 ， 还 是 比较 适 
合用 Map/Reduce 来 做 ， 而 对 于 局 部 性 的 更 新 则 比较 适合 使 用 Percolator 
系统 来 处 理 。 另 外 ，Percolator 在 BigTable 的 行事 务 支 持 的 基础 上 实现 了 
跨行 跨 表 的 事务 文 持 ， 所 以 提供 了 对 数据 处 理 的 强 一 致 性 服务 ， 如 果 应 
用 只 有 较 弱 的 一 致 性 要 求 ， 那 么 直接 使 用 BigTable 已 经 足够 ， 如 果 有 强 
事务 要 求 的 话 ， 则 使 用 Percolator 比 较 合 适 。 再 次 ，Percolator 是 对 海量 
数据 处 理 的 计算 模型 ， 如 果 数 据 量 没 有 达到 一 定量 级 ， 其 实 直 接 采 用 数 
据 库 系统 即 可 满足 需求 。 所 以 ， 咖 啡 因 系统 可 以 理解 为 针对 海量 数据 处 
理 的 、 提 供 强 一 致 性 文 持 的 局 部 更 新 计算 模型 。 这 是 其 与 所 有 其 他 系统 
的 不 同 之 处 。 

从 设计 特点 来 说 ， 为 了 能 够 文 持 对 海量 数据 的 增 量 更 新 ，Percolator 
主要 提供 了 以 下 两 种 功能 : 首先 是 能 够 对 数据 进行 随机 存 取 并 提供 对 数 
另外 提供 了 类 似 于 观察 / 通知 方式 的 整体 计 
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7.7.1 事务 支持 


Percolator 提 供 了 文 持 ACID 快照 隔离 语义 的 跨行 路 表 事 务 ， 如 果 一 
个 操作 涉及 更 改 不 同 表 的 不 同 数据 ， 那 么 这 些 更 改 要 么 同时 生效 ， 要 么 
同时 失效 ， 这 样 保持 了 数据 之 间 的 一 致 性 ， 这 是 Percolator 能 够 提供 增 量 
更 新 的 一 个 基础 要 求 ， 在 后 面 我 们 会 举 个 具体 的 例子 来 说 明 Percolator 是 
如 何 保证 这 种 一 致 性 的 。 

所 谓 快 照 隔离 ， 是 指 多 个 用 户 同时 读 / 写 相 同 的 数据 时 ， 相 互 之 间 
关系 很 复杂 ， 很 容易 发 生 阻塞 甚 至 是 死 锁 ， 快 照 隔离 维护 了 数据 的 不 同 
版 本 ， 不 同 的 操作 针对 不 同 的 数据 版 本 进行 ， 以 此 来 增加 并 发 程度 并 保 
证 数据 的 修改 一 致 性 。Percolator 是 在 BigTable 基 础 上 实现 的 ， 前 面 小 节 
我 们 介绍 过 ，BigTable 在 其 基本 存储 单元 〈Cell) 里 支持 多 版 本 数据 的 
存储 ， 这 天 然 适 合 进行 快照 隔离 。 通 过 快照 隔离 语义 ，Percolator 可 以 解 
RETR: 如 果 同 时 有 两 个 应 用 写 同 一 数据 ， 那 么 系统 可 以 保证 只 有 一 
个 应 用 会 成 功 写 入 。 

我 们 以 一 个 简单 例子 来 说 明 Percolator 是 如 何 提 供 事 务 支持 的 ， 假 设 
任务 如 下 : 我 们 有 两 个 银行 账户 , “ 张 三 ” 的 银行 户头 有 10 元 钱 ,，“ 李 
四 ”的 银行 账户 有 2 元 钱 ， 现 在 需要 从 * 张 三 ”的 账户 划拨 7 元 钱 到 “ 李 
四 ”的 账户 中 ， 即 划拨 后 “ 张 三 ” 账 户 的 户头 余额 为 3 元 ,“ 李 四 ”账户 的 户 
头 余额 为 9 元 。 这 个 任务 往往 由 两 个 操作 步骤 组 成 : 首先 从 * 张 三 ?账户 
扣除 7 元 ， 然 后 给 “ 李 四 ” 账 户 增 加 7 元 。 很 明显 这 个 任务 需要 事务 支持 ， 
否则 在 操作 进行 过 程 中 ， 如 果 系 统 出 错 ， 很 可 能 钱 从 “ 张 三 ” 账 户 扣 除 成 
功 ， 但 是 并 未 奶 加 到 “ 李 四 ” 的 账户 ， 导 致 资金 总 额 出 错 。 而 事务 支持 可 
以 保证 :要么 两 个 操作 都 成 功 ， 要 么 两 个 操作 都 失败 ， 不 论 如 何 ， 能 够 
保证 两 者 资金 总 额 是 12 元 ， 即 数据 是 一 致 的 。 

针对 这 个 任务 ， 我 们 看 看 Percolator 是 如 何 操作 的 ，BigTable 提 供 了 
对 数据 行 的 事务 文 持 ，Percolator 充 分 利用 这 一 点 ， 为 表 中 每 列 数 据 增加 
管理 数据 ， 其 中 Column:Lock 和 Column:Write 用 来 进行 事务 支持 ， 另 外 
的 管理 数据 是 为 了 支持 订阅 / 通知 体系 结构 的 。 要 完成 上 述 任务 ， 需 要 
依次 执行 以 下 几 个 步骤 。 

图 7-29 是 任务 执行 前 的 某 个 BigTable 表 格 的 初始 状态 ， 表 中 每 个 存 
储 单元 〈《Cell) 可 以 存储 不 同时 间 惟 的 多 个 数据 版 本 ，“5:10 元 ”代表 时 
间 惟 为 5 的 时 候 ， 用 户 *“ 张 三 ?对 应 的 账户 金额 为 10 元 。 从 表 中 可 以 看 出 
对 于 存储 账户 金额 的 数据 bal:data 列 ，Percolator 对 应 增加 了 两 列 bal:lock 
和 bal:write， 其 中 bal:lock 列 是 用 来 存储 锁 的 管理 数据 列 ， 而 bal:write 列 
则 指出 了 哪个 时 间 惟 的 数据 是 当前 可 用 数据 ， 比 如 “6: data@5” 即 指明 
































了 bal:data 列 的 时 间 蕉 为 5 的 数据 是 可 用 数据 。 
Key ”baldata 。 batlor 









图 7-29 任务 执行 前 的 某 个 BigTable 表 格 初始 状态 


图 7-30 展 示 了 任务 的 第 1 步 操作 ，Percolator 从 系统 获取 新 的 时 间 惟 
7， 并 在 bal:lock 写 入 锁 标 记 Primary， 说 明 这 个 锁 是 主 锁 ， 同 时 将 “ 张 
三 ”的 新 的 金额 3 元 写 入 数据 列 bal:data， 因 为 BigTable 支 持 基 于 行 的 事 
务 ， 所 以 这 些 操作 可 以 保证 其 数据 一 致 性 。 
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图 7-30 ”任务 第 1 步 : 扣除 “ 张 三 ” 的 金额 


图 7-31 展 示 了 任务 的 第 2 步 操 作 ，Percolator 在 bal:data 列 写 入 “ 李 
四 ”的 新 的 账户 金额 ， 同 时 在 bal:lock 列 写 入 二 级 锁 “Primary@ 张 三 .bal”， 
二 级 锁 指 出 了 主 锁 所 在 位 置 ， 即 “ 张 三 * 这 一 行 的 bal.lock 列 中 。 之 所 以 在 
这 里 写 入 如 此 内 容 的 二 级 锁 ， 主 要 是 防止 任务 执行 失败 时 ， 系 统 能 够 找 
到 主 锁 的 位 置 并 清除 挥 未 完成 任务 的 主 锁 。 












图 7-31 任务 第 2 步 : 增加 “ 李 四 ” 的 金额 


当 某 一 行 加 锁 的 时 候 ， 其 他 事务 对 该 行 的 读 / 写 操作 都 被 暂时 阻 
塞 ， 直 到 锁 被 释放 才 可 以 继续 。 图 7-32 指 出 了 当 账 户 金 额 都 得 到 更 改 
后 ， 这 个 任务 作为 一 个 事务 ， 处 于 可 提交 状态 。 此 时 系统 获取 新 的 时 间 
稚 ， 并 清理 掉 主 锁 ， 同 时 在 bal:write 列 指出 新 的 可 用 数据 为 bal:data 中 时 
间 惟 为 7 的 数据 ， 此 时 所 有 新 的 读 取 操 作 会 根据 bal:write 列 找到 账户 “ 张 
三 ”的 最 新 数据 3 元 。 
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图 7-32 ”释放 主 锁 ， 指 出 可 用 数据 


同样 地 ， 账 户 “ 他 四 ”的 三 级 锁 被 释放 ， 同 时 在 bal:write 列 指出 新 的 
可 用 数据 所 在 位 置 : bal:data 的 时 间 戳 为 7 的 数据 〈 人 参考 图 7-33) 。 
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图 7-33 ”释放 二 级 锁 ， 指 出 可 用 数据 
通过 以 上 几 个 步骤 ，Percolator 往 BigTable 数 据 行 加 入 管理 数据 ， 就 


实现 了 跨行 路 表 的 事务 文 持 。 上 面 押 举 例子 非常 简单 ， 在 实际 系统 中 ， 
往 是 对 索引 系统 的 数据 进行 事务 文 持 ， 这 样 吏 可 以 实现 增 量 更 新 的 功 
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7.7.2 ”观察 / 通知 体系 结构 


Percolater 采 用 了 观察 / 通知 的 机 制 来 将 应 用 程序 串 接 起 来 形成 一 个 
整体 ， 图 7-34 是 其 运行 流程 示意 图 。 在 BigTable 的 每 个 子 表 服务 器 上 ， 
Percolater 都 部 署 了 一 个 Percolater 控 制 占 (Percolater Worker) ， 不 同 的 
应 用 在 控制 器 登记 两 类 信息 : 哪个 应 用 程序 观察 子 表 的 哪些 列 ， 在 这 里 
每 个 应 用 程序 被 称 做 一 个 观察 者 。 在 图 示 中 ， 有 两 个 观察 者 ， 观 察 者 1 
关注 子 表 的 第 1 列 和 第 2 列 ， 观 察 者 2 关注 子 表 的 第 3 列 。Percolater 控 制 器 
不 断 扫 朱子 表 的 列 内 容 ， 如 果 发 现 被 观察 的 某 列 数据 做 出 更 改 ， 则 通知 
观察 这 列 数据 的 观察 者 ， 观 察 者 执行 相应 的 程序 逻辑 操作 ， 并 将 更 新 的 
内 容 写 入 子 表 中 ， 新 写 入 的 数据 可 能 会 触发 其 他 观察 者 启动 执行 。 
Percolator 就 是 通过 这 种 观察 / 通知 的 机 制 将 完成 一 项 任务 所 需 的 所 有 步 
又 串 接 起 来 ， 有 点 类 似 于 多 米 诡 骨牌 ， 一 一 依次 触发 。 在 图 7-34 中 ， 当 
Percolater 控 制 占 发 现 第 2 列 第 2 行 被 写 入 数据 X 后 ， 通 知 观察 者 1， 观 察 
者 1 执行 对 应 的 程序 ， 执 行 结束 后 在 子 表 的 第 3 行 第 3 列 写 入 数据 Y， 这 
触发 了 观察 者 2 的 执行 。 
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图 7-34 观察 / 通知 体系 结构 运行 流程 示意 图 


Percolater 主 要 用 来 对 索引 内 容 进 行 增 量 更 新 ， 当 有 一 批 新 增 网 页 被 
抓 取 后 ， 系 统 通 过 Map/Reduce 方 式 将 新 增 网 页 加 载 进 入 BigTable 对 应 表 
中 ，Percolater 的 观察 / 通知 机 制 开始 启 动 ， 这 触发 了 网 页 内 容 处 理 观察 
者 ， 将 网 页 内 容 抽 取出 来 或 者 是 处 理 网 页 中 包含 的 链接 ， 网 页 内 容 处 理 
观察 者 将 其 操作 结果 写 入 BigTable 对 应 表格 ， 则 会 触发 网 页 去 重 观察 
者 ， 如 此 这 般 ， 一 个 任务 触发 男 外 一 个 任务 ， 通 过 大 约 10 个 子 任 务 ， 就 
可 以 完成 新 增 网 页 的 索引 更 新 。 


7.8 ”Pregel 图 计算 模型 


随 着 Web 2.0 的 兴起 ， 大 规模 图 计算 越 来 越 重 要 ， 比 如 社交 关系 图 
的 计算 等 ， 即 使 是 搜索 引擎 服务 本 身 ， 前 述 章节 讲述 的 链接 分 析 也 是 一 
个 典型 的 图 计算 实例 。 对 于 非常 巨大 的 计算 规模 ， 如 何在 分 布 式 环境 下 
来 对 图 进行 计算 成 为 具有 挑战 性 的 问题 ， 尽 管 通过 一 系列 串 接 的 
Map/Reduce 任 务 也 可 以 完成 图 计算 的 功能 ， 但 是 因为 图 计算 本 身 的 特 
点 ， 使 用 Map/Reduce 进 行 图 计算 需要 很 高 的 机 器 之 间 的 通信 开销 ， 而 且 





计算 模型 也 非常 复杂 。 为 了 减轻 这 个 问题 ，Google 提 出 了 Pregel 计 算 模 
型 ， 专 门 用 来 解决 大 规模 分 布 式 图 计算 的 问题 。 

PageRank 需 要 迭代 计算 ， 其 实 很 多 图 算法 都 有 这 个 特点 ， 所 以 
Pregel 将 此 作为 重要 特点 引入 计算 模型 中 ， 一 次 迭代 计算 被 称 做 一 个 超 
级 步 〈SuperSteps) ， 系 统 从 一 个 超级 步 迈 癌 下 一 个 超级 步 ， 直 到 达到 
算法 的 终止 条 件 (参考 图 7-35) 。Pregel 以 图 节点 为 计算 中 心 ， 在 超级 
步 s 中 ， 每 个 图 节点 可 以 汇总 从 超级 步 s 一 1 中 其 他 节点 传递 过 来 的 消 
息 ， 改 变 自 喘 的 状态 ， 并 癌 其 他 节点 发 送 消息 ， 这 些 消息 会 在 超级 步 S 
十 1 中 被 其 他 节点 接收 并 做 出 处 理 。 用 户 只 需要 上 自 定义 一 个 针对 图 节点 
的 计算 函数 F (vertex) ， 用 来 实现 上 述 的 图 节点 计算 功能 ， 至 于 其 他 的 
任务 比如 任务 分 配 、 任 务 管理 、 系 统 容错 等 都 交 由 Pregel 系 统 来 实现 。 
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图 7-35 “Pregel 的 计算 模型 


每 个 节点 有 两 种 状态 : 活跃 与 不 活跃 。 刚 开始 计算 的 时 候 每 个 节点 
都 处 于 活跃 状态 ， 随 着 计算 的 进行 ， 茶 些 节 点 完成 计算 任务 转 为 不 活跃 


状态 ， 如 果 处 于 不 活跃 状态 的 节点 接收 到 新 的 消 轧 ， 则 再 次 转 为 活跃 ， 
a 

Pregel] 是 在 多 台 机 器 协同 下 完成 图 计算 任务 的 ， 与 很 多 Google 云 存 
储 与 云 计算 模 型 一 样 ，Pregel 也 采用 了 主 从 结构 来 实现 整体 功能 ， 图 7- 
36 是 其 物理 结构 图 。 其 中 一 合 服务 器 充当 主 控 服 务 器 ， 负 责 整个 图 结构 
的 任务 切 分 ， 将 其 切割 成 子 图 ， 并 把 任务 分 配给 众多 的 工作 服务 器 ， 工 
作 服 务 器 负责 计算 被 分 配给 自己 的 子 图 ， 主 控 服 务 器 还 命令 工作 服务 器 
进行 每 一 个 超级 步 的 计算 ， 并 收集 计算 结果 。 
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图 7-36 ”Pregel 的 分 布 协作 关系 


我 们 以 一 个 具体 的 计算 任务 来 作为 Pregel 图 计算 模型 的 实例 ， 这 个 
任务 要 求 将 图 中 节点 的 最 大 值 传 播 给 图 中 所 有 其 他 节点 ， 图 7-37 是 其 示 
意图 。 图 中 的 实 线 箭头 表明 了 图 的 链接 关系 ， 而 图 中 节点 内 的 数值 代表 
了 节点 的 当前 数值 ， 图 中 虚线 代表 了 不 同 超级 步 之 间 的 消息 传递 天 系 ， 
同时 ， 带 有 和 斜纹 标记 的 图 节点 是 不 活跃 节 损 。 
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超级 步 1 超级 步 2 


图 7-37 ”Pregel 传 播 最 大 值 


从 图 7-37 中 可 以 看 出 ， 数 值 6 是 图 中 最 大 值 ， 在 超级 步 0 中 ， 所 有 市 
点 都 是 活跃 的 ， 系 统 执行 用 户 函 数 F〈vertex) : 节点 将 自身 的 数值 通过 
链接 关系 传播 出 去 ， 接 收 到 消 恩 的 节点 选择 其 中 的 最 大 值 ， 并 和 上 自 壬 数 
值 比较 ， 如 果 比 目 身 数值 大 ， 则 更 新 为 新 的 数值 ， 如 采 不 如 目 映 的 数值 
大 ， 则 转 为 不 活跃 状态 。 

在 超级 步 0 中 ， 每 个 节点 都 将 自身 的 数值 通过 链接 传播 出 去 ， 系 统 
进入 超级 步 1， 执 行 F (vertex〉 函数 ， 第 1 行 和 第 4 行 的 节 扣 因为 接收 到 
了 比 目 身 数值 大 的 数值 ， 所 以 更 新 为 新 的 数值 6。 第 2 行 和 第 3 行 的 节点 
没有 接收 到 比 自 身 数 值 大 的 数 ， 所 以 转 为 不 活路 状态。 在 执行 完 函 数 
后 ， 处 于 活跃 状态 的 节点 再 次 及 出 消息 ， 系 统 进 入 超级 步 2， 第 2 行 节 所 
本 来 处 于 不 活跃 状态 ， 因 为 接收 到 新 消 轧 ， 所 以 更 新 数值 到 6， 重 新 处 
于 活跃 状态 ， 而 其 他 贡 氮 都 进入 了 不 活跃 状态 。Pregel 进 入 超级 步 3， 所 
有 节点 处 于 不 活跃 状态 ， 所 以 计算 任务 结束 ， 这 样 就 完成 了 整个 任务 ， 
最 大 数值 通过 4 个 超级 步 传 递 给 图 中 所 有 其 他 节点 。 

从 上 述 描述 可 以 看 出 ，Pregel 是 一 个 消 妃 驱动 的 、 以 图 节点 为 中 心 
的 并 且 是 适合 达 代 计算 的 分 布 式 图 计算 模型 。 











7.9 Dynamo 云 存储 系统 


Dynamo 是 亚马逊 公司 开发 的 云 存储 系统 ， 主 要 用 来 存储 电子 商务 
网 站 购物 车 相关 数据 。Dynamo 在 设计 哲学 上 与 Google 的 主 从 结构 大 异 


其 趣 ， 在 整个 系统 内 不 存在 作为 管理 控制 功能 的 主 探 节点， 完全 采取 对 
等 网 络 (Peer to Peer) 的 方法 ， 每 个 节点 功能 相同 ， 都 同时 承担 数据 存 
储 和 部 分 管理 功能 。Google 范 式 的 单 主 控 节 点 和 Dynamo 范 式 的 完全 对 
人 

Z AE 

Dynamo 系 统 与 很 多 其 他 云 存 储 系统 一 样 ， 采 用 大 量 商 用 PC 构建 存 
储 网络 ， 以 数据 的 最 终 一 致 性 作为 代价 ， 来 换取 系统 的 高 可 用 性 和 高 容 
错 性 。Dynamo 的 数据 模型 相对 简单 ， 是 很 直观 的 Key/Value 模 式 ， 即 每 
条 数据 都 是 由 主键 Key 和 数据 Value 构成 的 ， 不 像 BigTable 等 系统 一 样 在 
其 数据 区 有 列 属性 。Dynamo 设 计 原 则 如 下 。 

1. 易 扩 展 性 。 如 果 数 据 量 增加 ， 可 以 通过 简单 增加 机 器 解决 问 
题 ， 同 时 在 增加 机 器 时 不 影响 现 有 服务 的 正常 运转 ， 这 一 点 对 于 云 存 储 
系统 来 说 应 该 说 是 个 标准 需求 。 

2. 对 等 性 与 去 中 心 控制 节点 。 系 统 内 每 个 节点 功能 完全 对 等 ， 都 
同时 承担 数据 存储 和 部 分 管理 功能 ， 不 存在 单独 承担 管理 功能 的 中 心 主 
控 节 点 。 这 一 点 Dynamo 可 谓 独 出 心 裁 ， 一 般 的 云 存 储 系统 都 还 是 要 一 
些 单独 承载 管理 功能 的 主 控 节 点 。 

3. 机 器 异 构 性 。 所 谓 机 器 异 构 性 ， 指 的 是 在 一 个 复杂 系统 内 ， 使 
用 大 量 机 器 ， 但 是 每 台 机 器 性 能 大 不 相同 ， 有 相对 老 些 的 机 器 ， 其 存储 
和 计算 资源 较 少 ， 也 有 新 型 机 器 ， 拥 有 大 量 存储 空间 和 多 核 CUP 等 资 
源 ， 系 统 应 该 让 资源 少 的 机 喜 承 担 较 少 任 务 ， 而 让 资源 军 余 的 机 器 承载 
较 多 任务 。 一 般 的 云 存 储 系 统 通 过 负载 均衡 来 达到 这 个 目的 ， 而 
Dynamo 则 将 这 个 作为 设计 原则 并 体现 在 其 设计 思路 中 。 

Dynamo 系 统 作 为 完全 采取 P2P 架 构 的 云 存 储 系统 ， 在 技术 上 展现 了 
很 多 独特 之 处 ， 虽 然 这 种 设计 方案 是 个 合理 在 业界 存在 大 量 争 议 ， 而 且 
目前 来 看 ， 这 种 方案 能 否 经 得 起 时 间 考 验 虎 值得 怀疑 ， 但 是 系统 里 使 用 
的 一 些 技术 思路 还 是 非常 值得 介绍 的 。 














7.9.1 数据 划分 算法 (Partitioning Algorithm ) 


为 了 达到 易 扩 展 性 ， 系 统 要 能 够 根据 数据 情况 和 机 器 情况 ， 动 态 地 
在 机 器 之 间 分 配 数据 。 对 于 存在 主 控 节 点 的 分 布 式 系统 来 说 ， 一 般 由 主 
控 节 点 来 决定 将 海量 的 数据 进行 划分 ， 并 分 配 到 数据 存储 节点 中 。 但 是 
对 于 Dynamo 这 种 节点 功能 完全 对 等 的 系统 来 说 ， 如 何 诀 定 将 哪些 数据 
站 
Hoy BC 




















图 7-38 是 一 致 性 哈 而 算法 的 示意 图 。Dynamo 将 所 有 主键 的 哈 希 数 
值 空 间 组 成 一 个 首尾 相 接 的 环 状 序列 ， 对 于 每 台 机 器 ， 随 机 赋予 其 一 个 
哈 希 值 ， 这 样 不 同 的 机 顺 束 成 了 环 状 序列 中 的 不 同 节 点 《〈 图 7-38 中 环 上 
的 4 个 大 圆 即 代表 不 同 的 机 器 〉， 而 这 台 机 絮 则 负责 存储 落 在 一 段 哈 希 
空间 内 的 数据 。 如 果 一 个 数据 的 哈 希 值 落 入 某 个 区 段 ， 则 顺 时 针 进 行 查 
找 ， 找 到 第 1 台 机 避 ， 这 台 机 器 束 人 儿 贡 这 个 数据 的 存储 ， 之 后 的 相关 存 
取 操 作 及 元 余 备 份 等 操作 也 由 其 负责 。 通 过 这 种 方式 ， 就 自动 实现 了 数 
据 在 不 同 机 器 之 间 的 动态 分 配 。 








虚拟 节点 1 


Hash 
虚拟 节点 3 
图 7-38 一致 性 哈 希 算法 


一 致 性 哈 希 算法 有 个 明显 的 优点 : 如 果 新 加 入 一 台 机 器 或 者 某 台 机 
器 失效 无 法 提供 服务 ， 其 影响 的 范围 也 只 限于 其 本 号 负 责 的 那 段 喻 希 数 








值 空 间 及 和 其 顺 时 针 顺 序 相 邻 的 节点 ， 对 于 网 络 内 其 他 节点 没有 影响 ， 
即 其 影响 是 局 部 的 ， 可 扩展 性 非常 好 。 

为 了 达到 机 器 异 构 性 ，Dynamo 还 引入 了 虚拟 节点 的 思想 ， 即 将 一 
台 物 理 机 器 的 计算 和 存储 资源 分 割 成 寿 干 虚拟 机 ， 每 个 虚拟 机 作为 插入 
环 状 序列 的 服务 节点 。 这 样 的 话 ， 对 于 高 配置 的 机 器 ， 可 以 划分 成 数量 
较 多 的 虚拟 机 ， 而 对 于 比较 老 的 机 器 ， 则 划分 较 少 数量 的 虚拟 机 ， 如 此 
每 台 物 理 机 器 的 任务 负载 量 和 其 资源 能 力 相 匹配 ， 同 时 充分 利用 了 一 些 
配置 较 低 的 机 器 资源 。 


7.9.2 ”数据 备份 (Replication) 


大 量 PC 构成 的 云 存储 系统 ， 数 据 元 余 备 份 是 必须 考 夸 的 ， 因 为 机 
如 宕 机 是 个 常态 ， 为 了 保证 数据 所 是 可 用 ， 必 须 对 存储 数据 进行 多 个 备 
份 。 对 于 有 主 控 闻 点 的 分 布 式 存 储 系统 ， 这 个 职责 往往 由 主 控 节 反 负 
员 ， 但 是 对 于 完全 对 等 网 络 ， 则 由 数据 存储 市 点 来 接管 这 一 功能 。 

上 节 讲 过 ， 每 个 虚拟 节点 负责 存储 一 部 分 哈 希 空间 的 数据 ， 同 时 这 
个 节点 也 负责 将 这 些 数据 备份 到 环 中 顺 时 针 方 同 后续 的 N 一 1 个 节点 
中 ， 这 样 每 份 数 据 就 在 系统 中 存在 N 份 数据 ， 达 到 元 余 存 储 的 目的 。 


7.9.3 ”数据 读 / 5 


每 个 虚拟 贡 点 负责 其 管辖 范围 内 的 数据 读 / 写 操 作 ， 因 为 系统 中 存 
在 多 个 备份 数据 ， 所 以 对 于 与 操作， 要 保证 数据 内 容 的 一 致 性 ， 而 对 于 
读 操作 ， 也 要 保证 能 够 读 取 到 最 新 的 更 新 数据 。 

为 了 达到 上 述 目 的 ，Dynamo 采 取 了 类 似 于 投票 机 制 的 数据 一 致 协 
议 ， 来 达成 一 种 可 根据 具体 需求 动态 配置 的 系统 ， 来 保证 系统 总 是 可 以 
读 取 到 最 新 更 新 的 数据 。 假 设 系 统 对 于 每 份 数 据 共存 储 N 份 ， 数 值 R 代 
表 一 次 成 功 的 读数 据 操作 要 求 至 少 有 R 份 数据 成 功 读 取 ， 而 数值 W 代 表 
一 次 成 功 的 更 新 操作 要 求 至 少 有 W 份 数据 写 入 成 功 ， 如 果 满 足 : 

R+W>N 












































则 满足 数据 一 致 协议 。 

我 们 以 图 7-39 的 具体 例子 来 说 明 这 种 数据 一 致 协议 ， 图 7-39 中 ，N 
为 3， 即 系统 中 每 个 数据 保留 3 个 备份 。R 设 置 为 2， 含 义 是 在 读 取 这 个 数 
据 的 时 候 ， 至 少 要 有 2 个 备份 数据 读 取 成 功 ， 此 次 读 取 才能 被 认为 是 有 
效 读 取 。 而 W 设 置 为 2， 含 义 是 在 写 入 数据 的 时 候 会 同时 间 3 个 备份 写 











A BAD EAP BOE SABRI, AEWA EWA BCS ARETE. A 
为 R 十 W>N， 所 以 这 种 配置 是 符合 数据 一 致 协议 的 。 从 图 7-39 中 可 以 看 
出 ， 如 果 R 十 W>N， 则 读 取 操 作 和 写 入 操作 成 功 的 数据 一 定 会 有 交集 

(图 7-39 中 是 数据 备份 B) ， 这 样 就 可 以 保证 一 定 能 够 读 取 到 最 新 的 更 
新 数据 ， 数 据 的 一 致 性 得 到 了 保证 。 





图 7-39 数据 一 致 协议 


在 满足 数据 一 致 协议 的 前 担 下 ，R 或 者 WwW 设置 得 越 大 ， 则 系统 延迟 
越 大 ， 因 为 这 取决 于 最 慢 的 那 份 备份 数据 的 啊 应 时 间 。 根 据 系 统 的 需 
求 ， 可 以 配置 不 同 的 参数 组 合 ， 比 如 图 7-39 中 可 以 配置 为 W 王 1，R 王 
3， 含 义 是 只 要 成 功 写 入 1 个 备份 就 算 成 功 ， 而 读 取 则 需要 3 个 备份 都 成 
功 才 算 有 效 读 取 ， 这 种 配置 明显 适合 要 求 写 入 速度 较 快 ， 而 对 读 取 速 度 
要 求 不 高 的 应 用 场合 。 

数据 一 致 协议 可 以 允许 应 用 系统 根据 实际 需要 来 配置 相应 的 R、 
W、N 参 数 ， 增 加 了 云 存 储 系统 的 灵活 性 。 


7.9.4 数据 版 本 控制 
分 布 式 存储 系统 对 于 某 个 数据 存在 多 个 备份 ， 数 据 写 入 时 要 尽量 保 








证 备份 数据 同时 获得 更 新 ，Dynamo 对 此 采取 了 数据 的 最 终 一 致 ， 也 就 
是 说 ， 在 一 定 的 时 间 窗 口内 ， 对 数据 的 更 新 会 传播 到 所 有 备份 中 ， 但 是 
在 时 间 窗 口内 ， 如 果 客 户 端 有 读 取 数据 的 操作 ， 尽 管 上 一 小 节 保 证 一 定 
可 以 读 取 到 最 新 的 数据 ， 但 还 是 可 能 会 同时 读 取 到 旧版 本 的 数据 ， 
Dynamo 保 存 了 数据 的 新 旧 等 多 个 版 本 信息 ， 并 采用 癌 量 时 钟 《Vector 
Clock) 技术 来 进行 版 本 控制 ， 如 果 发 现 冲 突 版 本 的 存在 ， 则 交 由 应 用 
目 己 进行 处 理 ， 

一 个 向 量 时 钟 是 由 一 系列 (机 器 节点 编写: 计数 器 ) 构成 的 ， 我 们 
以 图 7-40 中 的 例子 来 说 明 如 何 利 用 向 量 时 钟 来 进行 版 本 控制 ， 图 中 所 有 
操作 都 是 针对 某 个 特定 的 记录 X 的 。 
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图 7-40 ”利用 向 量 时 钟 进行 版 本 控制 


假设 客户 端 W 对 记录 X 有 个 更 新 请 求 ， 而 这 个 请 求 由 机 器 A 来 负责 
执行 ， 则 形成 了 初始 的 向 量 时 钟 CA) ， 之 后 客户 端 W 又 有 对 记录 X 的 
更 新 请 求 ， 这 个 请 求 仍然 是 由 机 器 A 来 执行 的 ， 于 是 向 量 时 钟 变 为 
(A:2) ，(A:1) 和 (A:2) 存在 因果 关系 ，〔A:2) 是 最 新 版 本 的 数 
Ho m 〈A:1) 可 以 被 废弃 。 如 果 在 机 器 B 上 存在 一 个 记录 X 的 副本 ， 同 
一 客户 端 W 继 续 要 求 更 新 记录 X， 此 次 的 请 求 由 机 器 B 来 负责 执行 ， 则 
机 器 B 将 更 新 写 入 副本 中 ， 向 量 时 钟 更 新 为 (A:2) , (Bil) 。 如 果 与 
此 同时 ， 另 外 一 个 客户 端 T 请 求 更 新 记录 X， 而 这 次 的 请 求 由 机 器 C 负 
责 ， 则 在 机 器 C 上 形成 了 向 量 时钟 (A:2) ，(C:1) ， 假 如 此 时 有 客户 
端 读 取 记 录 X， 会 发 现在 机 器 B 和 机 器 C 上 存在 两 个 有 冲突 的 版 本 ， 
Dynamo 的 设计 思路 是 由 客户 端 自己 解决 这 种 冲突 。 如 果 客 户 端 成 功 解 
次 冲突 ， 回 量 时 钟 转换 为 (A:2) , (Bil), (C:1) ， 之 后 再 次 有 对 
记录 X 的 更 新 请 求 ， 并 且 是 机 器 A 负责 执行 ， 则 向 量 时 钟 进化 为 
(A:3) ， (B:1), (C:1) 。 

Dynamo 就 是 采用 这 种 向 量 时 钟 控制 版 本 并 发 现 版 本 冲突 ， 而 由 客 























尸 端 解决 版 本 冲突 来 保持 数据 的 一 致 性 的 。 

Dynamo 在 实现 云 存储 系统 时 采取 或 引入 一 系列 的 新 技术 ， 除 了 以 
上 介绍 的 内 容 外 ， 还 有 其 他 技术 ， 比 如 利用 Gossip 协 议 来 发 现 新 加 入 的 
0 0 


7.10 PNUTS 云 存储 系统 


PNUTS 是 Yahoo 公 司 构建 的 提供 在 线 数据 服务 的 云 存储 系统 ， 与 其 
他 的 海量 云 存 储 系统 相似 ，PNUTS 采 取 了 弱 一 致 性 模型 ， 以 这 种 宽松 的 
一 致 性 模型 为 代价 ， 换 取 系 统 更 好 的 可 扩展 性 、 高 可 用 性 及 强 容错 性 。 

之 所 以 讲解 PNUTS 系 统 ， 是 因为 这 个 云 存 储 平台 有 自己 的 特点 ， 具 
有 代表 性 ， 具 体 而 言 ， PNUTS 在 以 下 几 方 面 有 其 特色 。 

1. 这 个 云 存 储 平台 支持 在 线 实时 请 求 的 响应 ， 前 面 介绍 的 Google 
的 BigTable 等 云 存 储 架 构 从 其 设计 原理 来 说 ， 更 适合 对 实时 性 要 求 不 高 
的 后 台 计 算 。 

2. PNUTS 支 持 多 数据 中 心 的 分 布 式 存储 和 数据 备份 与 同步 。 

3. 很 多 云 存 储 系 统 对 于 数据 更 新 ， 采 取 先 写 入 系统 Log 文 件 ， 事 后 
回放 (Replay) 的 方式 来 保证 数据 操作 的 容错 性 。PNUTS 则 采取 了 消 忌 
代理 的 机 制 来 保证 这 一 点 ， 虽 然 从 本 质 上 说 也 类 似 于 Log 回 放 机 制 ， 但 
是 其 表现 形式 并 不 相同 。 

和 
papers 

PNUTS 的 数据 模型 类 似 于 BigTable 的 数据 模型 ， 以 行为 一 个 数据 单 
位 ， 即 一 条 记录 ， 每 条 记录 有 不 同 的 属性 作为 列 ， 同 时 是 模式 自由 的 列 
A ae ee ee eee 
间 言 息 。 



































7.10.1 PNUTS 整 体 架 构 


PNUTS 文 持 数据 的 多 数据 中 心 部 普 ， 每 个 数据 中 心 被 称 做 一 个 区 域 
(Region) ， 每 个 区 域 所 部 车 的 系统 都 是 完全 相同 的 ， 每 条 记录 在 每 个 
区 域 都 有 相应 的 备份 (参考 图 7-41) 。 每 个 区 域内 主要 包含 3 个 基本 单 
Jù: 子 表 控制 器 、 数 据 路 由 器 和 存储 单元 ， 其 中 存储 单元 负责 实际 数据 
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域 ， 主 要 负责 数据 在 不 同 区 域 的 更 新 与 同步 。 


一 一 - i] 




















图 7-41 PNUTS 整 体 架 构图 


7.10.2 ”存储 单元 


存储 单元 负责 实际 数据 的 存储 ， 对 于 每 个 二 维 数据 表格 ， 若 干 条 记 
录 组 成 一 个 子 表 (Tablet) ， 每 个 存储 单元 负责 存储 几 百 个 不 同 的 子 
表 ， 在 具体 某 个 区 域内 ， 只 保留 一 份子 表 。 数 据 的 元 余 存 储 是 通过 不 同 
区 域 备份 来 实现 的 ， 即 每 条 记录 在 每 个 区 域 都 有 一 个 备份 。 

PNUTS 整 体 架 构 对 于 子 表 划分 ， 有 两 种 不 同 的 方式 : 有 序 划 分 和 哈 
希 划 分 。 所 谓 有 序 划分 ， 就 是 按照 记录 主键 排序 ， 然 后 将 连续 的 一 段 记 
录 划 分 成 一 个 子 表 ， 每 个 子 表 内 的 记录 主键 仍然 是 有 序 的 。 对 于 这 种 类 

















型 的 子 表 ，PNUTS 采 用 MySQL 数 据 库 的 方式 存储 。 图 7-42 是 这 种 划分 
方式 的 示意 图 ， 比 如 子 表 2 存储 了 主键 范围 在 banana 到 grape 内 的 记录 ， 








图 7-42 有 序 划分 子 表 的 示意 图 


哈 布 划分 基本 思路 与 Dynomo 系 统 的 数据 划分 方式 类 似 ， 即 对 所 有 
记录 的 主键 进行 哈 希 计算 ， 将 所 有 哈 希 值 看 做 一 个 闭环 ， 将 这 个 闭环 切 


制 ， 形 成 不 同 的 子 表 〈 人 参见 图 7-43) 。 


LEENA 








图 7-43” 哈 希 划 分 子 表 


7.10.3” 子 表 控 制 器 与 数据 路 由 器 


数据 路 由 器 负责 查找 人 条 条 记录 所 在 存储 单元 的 位 置 ， 当 客户 端 程序 
要 对 茶 个 记录 进行 读 / 写 时 ， 会 询问 数据 路 由 器 应 该 和 哪个 存储 单元 通 
童 ， 数 据 路 由 器 在 内 存 保留 记录 主键 所 在 存储 单元 的 映射 表 ， 通 过 查找 
映射 表 ， 告 知客 户 端 存储 单元 地 址 。 之 后 客户 端 程序 和 存储 单元 联系 进 
行 数据 读 取 操 作 (参考 图 7-44) 。 











图 7-44 ” 子 表 控 制 器 与 数据 路 由 器 








数据 路 由 器 的 映射 表 来 自 于 子 表 控制 器 ， 子 表 控 制 占 负责 存储 单元 
的 管理 ， 比 如 负载 均衡 或 者 对 子 表 进 行 分 裂 等 操作 ， 之 后 会 修改 对 应 的 
PRET AS, BACH eS EH ats Pad SOY PES A TRIER ae RS BET a RT eR 
Bia ws HH as HY A RY FAS He ll at HR RE BL, ENE PA 
端 此 时 有 读 取 请 求 ， 数 据 路 由 器 会 返回 一 个 过 期 的 存储 单元 地 址 ， 之 后 
客户 端 和 存储 单元 联系 ， 存 储 单元 会 报错 ， 此 时 数据 路 由 器 知 着 自己 的 
数据 过 期 ， 会 从 子 表 控 制 器 处 更 新 新 的 映射 表 。 


7.10.4 ”雅虎 消息 代理 
雅虎 消息 代理 负责 数据 的 更 新 与 同步 ， 来 保持 记录 数据 的 一 致 性 。 


雅虎 消 妃 代理 采取 发 布 / 订阅 的 消 轧 队列 方式 ， 并 且 横 跨 不 同 数 据 中 
心 ， 以 保持 不 同 数据 中 心 的 数据 一 致 〈 参 考 图 7-45) 。 























图 7-45 ”数据 更 新 与 同步 





前 文 讲 过 ， 每 条 记录 在 同一 个 区 域内 没有 副本 ， 而 在 其 他 数据 中 心 
各 自 有 一 份 副 本 存在 ， 图 7-45 中 假设 有 3 个 数据 中 心 ， 所 以 每 条 记录 在 
不 同 数据 中 心 共有 3 个 备份 ， 其 中 茶 个 记录 作为 主 记 录 ， 其 他 两 个 作为 
备份 记录 ， 上 所 有 对 记录 的 更 新 操作 都 由 主 记录 来 完成 ， 主 记录 在 更 新 数 
据 后 ， 即 向 雅虎 消息 代理 发 布 一 条 数据 更 新 信息 ， 发 布 成 功 即 可 认为 数 
据 更 新 完成 ， 之 后 由 雅虎 消息 代理 负责 将 同样 的 更 新 操作 体现 到 其 他 两 
个 备份 记录 上 ， 雅 虎 消 息 队 列 可 以 保证 这 种 更 新 一 定 可 以 正确 完成 ， 这 
样 就 实现 了 数据 的 一 致 性 。 如 果 某 个 客户 端 对 备份 记录 发 出 更 新 数据 的 
请 求 ， 备 份 记录 会 将 这 个 更 新 操作 引导 到 主 记录 ， 由 主 记录 来 完成 这 种 
更 新 操作 。 

从 上 述 过 程 可 以 看 出 ， 只 要 主 记录 完成 更 新 操作 并 发 布 消息 成 功 ， 
即 可 认为 更 新 操作 成 功 完成 ， 之 后 的 数据 一 致 性 由 雅虎 消息 代理 来 保 
证 ， 这 是 为 何 PNUTS 可 以 实时 啊 应 用 户 请 求 的 关键 。 


7.10.5 ”数据 一 致 性 
PNUTS 采 取 了 记录 级 别 的 时 间 轴 一 致 性 ， 前 文 讲 述 过 ， 所 有 更 新 操 


作 都 由 主 记 录 来 完成 ， 雅 虎 消息 代理 负责 按照 相同 的 更 新 顺序 来 更 新 所 
有 其 他 备份 记录 。 














图 7-46 展 示 了 这 种 时 间 轴 一 致 性 的 原理 ， 随 着 系统 时 间 癌 前 推进 ， 
记录 不 断 被 更 新 ， 系 统 会 记载 当前 记录 的 版 本 信息 ， 随 着 更 新 的 不 断 进 
行 ， 记 录 的 版 本 写 持 续 增加 ， 在 系 个 时 间 点 ， 记 录 只 保留 当前 版 本 的 数 
据 ， 但 是 由 于 备份 记录 和 主 记录 的 更 新 存在 时 间 差 ， 可 能 整个 PNUTS 系 
统 中 存在 多 个 版 本 的 记录 ， 不 同 版 本 的 数据 由 版 本 写 可 以 区 分 。 
记录 插入 Bh ”更 新 更 新 更 新 ”更 新 删除 记录 
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图 7-46 ”时 间 轴 一 致 性 原 


PNUTS 提 供 了 多 种 读 取 API 来 满足 不 同 应 用 的 不 同 需求 ， 可 以 指定 
读 取 最 新 版 本 的 记录 ， 但 这 往往 需要 较 长 的 啊 应 时 间 ， 也 可 以 指定 任意 
版 本 读 取 ， 这 会 加 快 系统 响应 时 间 ， 但 是 只 有 对 数据 一 致 性 不 敏感 的 应 
用 才能 这 么 做 ， 对 这 些 应 用 来 说 ， 即 使 数据 有 些 老 旧 也 不 会 有 太 大 影 
啊 。 此 外 ， 应 用 也 可 以 指定 读 取 记 录 版 本 号 ， 只 要 记录 本 身 的 版 本 号 大 
于 指定 的 版 本 号 就 可 以 满足 要 求 〈( 参 考 图 7-47) 。PNUTS 提 供 的 这 种 不 
同 API 给 整个 系统 提供 了 灵活 性 。 

Read-Any Read-Critical(V1.2) Read “Latest 


老 版 本 记录 。 。 ” 老 版 本 记录 最 新 版 本 记录 


he 
H 
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时 间 轴 
图 7-47 PNUTS 支 持 灵活 读 取 操 作 


7.11 HayStack 存 储 系 统 


HayStack 是 Facebook 公 司 设计 开发 的 一 种 对 象 存 储 系统 ， 这 里 的 对 
象 主要 指 用 户 上 传 的 图 片 数 据 。 作 为 一 个 社交 平台 ，Facebook 用 户 需 要 
设置 头像 或 者 与 朋友 们 分 享 图 片 ， 所 以 Facebook 面 临海 量 图 片 的 存储 和 
该 取 更 新 等 任务 ， 目 前 Facebook 存 储 了 超过 2600 亿 的 图 片 数据 ， 而 这 些 
数据 的 存 取 与 管理 都 是 靠 HayStack 系 统 完 成 的 。 

大 型 商业 互联 网 公司 对 于 类 似 于 HayStack 的 这 种 对 象 存储 系统 有 很 
大 的 需求 ， 这 里 的 对 象 往往 指 满足 一 定性 质 的 媒体 类 型 ， 类 似 于 图 片 数 
据 的 存储 有 其 自身 特点 ， 典 型 的 特征 是 : 一 次 写 入 、 多 次 读 取 、 从 不 更 
改 、 很 少 删除 。 很 多 其 他 类 型 的 数据 也 有 此 种 特点 ， 比 如 邮件 附件 、 视 




















频 文件 及 音频 文件 等 ， 一 般 将 这 种 数据 称 为 Blob 数 据 ， 对 应 的 存储 可 以 
称 为 Blob 存 储 系 统 。 因 为 其 特点 是 读 多 改 少 ， 所 以 在 设计 这 种 存储 系统 
的 时 候 ， 保 证 读 取 效率 是 需要 重点 考虑 的 要 素 。 目 前 国内 的 淘宝 和 腾讯 
等 大 型 互联 网 公司 也 独立 开发 了 类 似 的 存储 系统 ， 其 实现 思路 应 该 与 
HayStack 系 统 差 异 不 大 。 

为 了 减少 系统 读 取 压力 ， 对 于 海量 的 静态 数据 请 求 ， 一 般 会 考虑 使 
用 CDN 来 缓存 热门 请 求 ， 对 于 这 样 大量 的 请 求 由 CDN 系 统 就 可 以 满 
足 。HayStack 存 储 系统 的 初 袁 是 作为 CDN 系 统 的 补充 ， 即 热门 请 求 由 
CDN 系 统 负责 ， 长 尾 的 图 片 数据 请 求 由 HayStack 系 统 负责 。 

由 于 图 片 数 据 请 求 具有 读 多 改 少 的 特点 ， 所 以 如 何 优化 图 片 的 读 取 
速度 是 HayStack 系 统 的 设计 核心 。 一 般 读 取 一 张 图 片 需要 有 两 次 磁盘 读 
操作 ， 首 先 从 磁盘 中 获得 图 请 的 元 数据 ， 根 据 元 数据 从 磁盘 中 读 出 图 片 
内 容 。 为 了 增加 读 取 速度 ，HayStack 系 统 的 核心 目标 是 减少 读 取 磁盘 的 
次 数 ， 将 所 有 图 片 内 容 放 入 内 存 显 然 是 不 太 可 能 的 ， 所 以 可 以 考虑 将 图 
片 的 元 数据 放 入 内 存 中 ， 因 为 相 比 图 片 本 和 喘 内 容 的 数据 量 来 说 ， 图 片 的 
元 数据 小 很 多 ， 将 所 有 图 片 的 元 数据 放 入 内 存 理论 上 是 可 行 的 ， 这 样 束 
可 以 将 两 次 磁盘 操作 减少 为 一 次 磁盘 操作 。 

但 是 实际 上 ， 尽 管 每 个 图 片 的 元 数据 量 不 大 ， 由 于 图 片 数 量 太 多 ， 
导致 内 存 仍然 放 不 下 这 么 大 的 数据 量 。HayStack 在 设计 时 ， 考 虑 从 两 个 
方面 来 减少 元 数据 的 总 体 数 量 : 一 方面 由 多 个 图 片 数 据 拼接 成 一 个 数据 
文件 ， 这 样 就 可 以 减少 用 于 管理 数据 的 数量 ， 男 一 方面 ， 一 个 图 片 的 元 
数据 包含 多 个 属性 信息 ，HayStack 考 虑 将 文件 系统 中 的 元 数据 属性 减 
少 ， 只 保留 必需 的 属性 。 通 过 这 两 种 方式 即 可 在 内 存 保留 所 有 图 片 的 元 
数据 ， 原 先 的 两 次 磁盘 读 取 就 改 为 : 元 数据 从 内 存 读 取 ， 图 片 数据 从 丰 
盘 读 取 。 通 过 这 种 方式 ， 有 效 减 少 了 磁盘 该 取 操 作 ， 提 高 了 系统 性 能 。 












































7.11.1 HayStack 整 体 架 构 


在 了 解 HayStack 架 构 之 前 ， 需 要 熟悉 相关 的 一 些 基 本 概念 ， 首 先 需 
要 了 解 什么 是 物理 卷 (Physical Volume) 和 逻辑 卷 〈Logical 
Volume) ， 图 7-48 是 这 两 个 基本 概念 的 示意 图 。HayStack 存 储 系 统 由 很 
多 PC 构成 ， 每 个 机 器 的 磁盘 存储 知 干 物理 卷 ， 前 面 讲 过 ， 为 了 减少 文 
件 元 数据 的 数量 ， 需 要 将 多 个 图 片 的 数据 存储 在 同一 个 文件 中 ， 这 里 的 
物理 卷 束 是 存储 多 个 图 片 数 据 对 应 的 某 个 文件 ， 一 般 一 个 物理 卷 文 件 大 
小 为 100GB， 可 以 存储 上 百 万 个 图 片 数 据 。 不 同 机 费 上 的 大 干 物理 卷 共 
同 构成 一 个 逻辑 卷 ， 在 HayStack 的 存储 操作 过 程 中 ， 是 以 多 辑 卷 为 单位 





的 ， 对 于 一 个 待 存储 的 图 片 ， 会 同时 将 这 个 图 片 数 据 退 加 到 茶 个 逻辑 着 
对 应 的 多 个 物理 卷 文件 末尾 。 之 所 以 要 这 么 做 ， 主 要 是 从 数据 见 余 的 角 
度 考虑 的 ， 即 使 茶 台 机 器 宕 机 ， 或 者 因为 其 他 原因 不 可 用 ， 还 可 以 从 其 
ee 图 片 信息 ， 这 种 数据 的 元 余 是 海量 存储 系统 必须 
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图 7-48 ”物理 卷 与 逻辑 卷 概念 的 示意 图 


在 了 解 了 基本 概念 后 ， 我 们 来 看 下 HayStack 系 统 的 整体 架构 〈 人 参考 
图 7-49) 。HayStack 由 3 个 部 分 构成 : HayStack 目 录 服 务 、HayStack 组 存 
系统 和 HayStack 存 储 系统 。 当 Facebook 用 户 访问 某 个 页 面 时 ， 目 录 服 务 
通常 URL 由 几 个 部 分 构成 ， 典 型 的 
URL 如 下 : 
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图 7-49 HayStack 系 统 的 整体 架构 


<CDN> 指 出 了 应 该 去 哪个 CDN 读 取 图 片 ，CDN 在 接收 到 这 个 请 求 
后 ， 在 内 部 根据 逻辑 卷 ID 和 图 片 ID 查找 图 片 ， 如 果 找 到 则 将 图 片 返回 给 
用 户 ， 如 果 没 有 找到 ， 则 把 这 个 URL 的 <CDN> 部 分 去 掉 ， 将 改写 后 的 
URL 提 交 给 HayStack 绥 存 系统 。 绥 存 系 统 与 CDN 功 能 类 似 ， 首 先 在 内 部 
查找 图 片 信 息 ， 如 果 没 有 找到 就 会 到 HayStack 存 储 系 统 内 读 取 ， 并 将 读 
出 的 图 片 放 入 缓存 中 ， 之 后 将 图 片 数据 返回 给 用 户 。 这 里 需要 注意 的 
是 : 目录 服务 可 以 在 构造 URE 的 时 候 绕 过 CDN， 直 接 从 缓存 系统 查找 ， 
这 样 做 的 目的 是 减轻 CDN 的 压力 ， 其 内 部 查找 过 程 是 一 样 的 。 

上 述 是 HayStack 系 统 读 取 图 片 的 流程 ， 如 果 用 户 上 传 一 张 图 片 ， 其 
流程 可 参考 图 7-50。 当 用 户 请 求 上 传 图 片 时 ，Web 服 务 器 从 目录 服务 中 
得 到 一 个 允许 写 入 操作 的 逻辑 卷 ， 同 时 Web 服 务 器 赋予 这 个 图 片 唯一 的 
编号， 之 后 即 可 将 其 写 入 这 个 逻辑 卷 对 应 的 多 个 物理 卷 中 。 
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浏览 器 
图 7-50 用 户 上 传 图 片 流程 


7.11.2 目录 服务 


HayStack 的 目录 服务 是 采用 数据 库 实现 的 ， 它 提供 多 种 功能 。 首 

先 ， 目 录 服 务 保 存 了 从 逻辑 卷 到 物理 卷 的 映射 关系 表 ， 这 样 在 用 户 上 传 
图 片 和 读 取 图 片 时 可 以 找到 正确 的 文件 。 其 次 ， 目 录 服 务 提供 了 
HayStack 存 储 系 统 的 负载 均衡 功能 ， 保 证 图 片 写 入 和 读 取 在 不 同 机 器 之 
间 负 载 是 相当 的 ， 不 至 于 出 现 机 器 之 间 忙 朵 不 均 的 状况 。 再 次 ， 目 录 服 
务 还 决定 是 将 用 户 请 求 直 接 提 交 给 缓存 系统 还 是 提交 给 CDN， 以 此 来 对 
这 两 者 接收 到 的 请 求 量 进行 均衡 。 此 外 ， 通 过 目录 服务 还 可 以 知道 哪些 
逻辑 着 是 只 读 的 ， 哪 些 逻 辑 卷 可 以 写 入 。 在 有 些 情况 下 ， 某 些 逻 辑 卷 会 
mealies 的 ， 比 如 其 物理 卷 已 经 基本 被 写 满 或 者 存储 系统 需要 进行 
调试 的 时 候 。 


7.11.3 ”HayStack 绥 存 


HayStack 缓 存 从 功能 上 讲 与 CDN 是 一 致 的 ， 绥 存 接收 到 的 访问 请 求 
可 能 来 自 CDN， 也 可 能 直接 来 自用 户 浏 览 嚣 请求 。 在 其 内 部 实现 ， 
HayStack 采 用 哈 希 表 的 方式 存储 图 片 人 DD 和 其 对 应 的 数据 ， 如 果 在 缓存 内 
没有 找到 图 片 ， 则 从 HayStack 存 储 系统 中 读 取 图 片 并 加 入 缓存 中 ， 之 后 
将 图 片 内 容 传 给 CDN 或 者 直接 传递 给 用 户 。 











7.11.4 HayStack 存 储 系统 


HayStack 存 储 系统 是 整个 系统 的 核心 组 成 部 分 。 对 于 某 台 存储 机 来 
说 ， 在 磁盘 存储 了 各 二 物理 卷 文件 及 其 对 应 的 索引 文件 ， 在 内 存 为 每 个 
物理 卷 建 立 一 张 映射 表 ， 存 放 了 图 片 ID 到 元 数据 的 映射 信息 。 每 个 图 片 
的 元 数据 包括 删除 标记 位 、 在 物理 卷 中 的 文件 起 始 地 址 及 图 片 大 小 ， 根 
人 

7-52) 。 











| 映射 表 1 











图 7-52 ”映射 表 项 


对 于 每 个 物理 卷 文件 ， 由 一 个 超级 块 和 图 片 数据 组 成 (参考 图 7- 
51) ， 每 个 图 片 的 信息 被 称 为 一 个 Needle， 图 7-53 是 一 个 Needle 具 体 包 
含 的 图 片 属性 信息 ， 其 中 比较 重要 的 属性 信息 包括 图 片 唯一 标记 Key 和 
辅助 Key、 删 除 标记 位 、 图 片 大 小 及 图 片 数据 ， 除 此 之 外 还 包含 一 些 管 
理 属性 及 数据 校 验 属性 。 
文件 头 魔 数 
Cookie 

Key 
辅助 Key 

标记 位 
大 小 

























Needle 











图 7-53 Needle 结构 细节 


图 7-51 中 每 个 物理 卷 文 件 配 有 一 个 专门 的 索引 文件 ， 这 个 索引 文件 
的 目的 是 为 了 在 机 器 重新 启动 时 ， 能 够 快速 恢复 物理 卷 在 内 存 中 的 映射 
表 。 其 结构 与 物理 卷 的 结构 非常 类 似 ， 也 是 由 一 个 超级 块 和 图 片 的 
Needle 信 息 构 成 ， 不 同 点 在 于 : 索引 文件 里 的 Needle 只 包含 少量 重要 信 
息 ， 不 包含 图 片 本 身 的 数据 (参考 图 7-54) 。 这 样 在 恢复 内 存 映射 表 的 
ee WRT SCPE REZ AN 
度 会 快 很 多 。 
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图 7-54 HayStack 索 引文 件 结构 


了 解 了 HayStack 的 基本 构成 ， 下 面 我 们 来 看 看 其 是 如 何 对 文件 信息 
进行 存 取 的 。 

对 于 读 取 图 片 的 请 求 来 说 ，HayStack 绥 存 系统 会 向 存储 系统 提供 图 
片 的 逻辑 卷 ID 编 号 及 图 片 ID〈 由 Key 和 辅助 Key 构 成 ) ， 当 存储 系统 接 
收 到 请 求 后 ， 会 在 内 存 中 的 物理 卷 映 射 表 中 得 找 图 片 ID， 如 宋 找到 ， 则 
根据 映射 表 保 存 的 信息 获取 其 在 对 应 物理 卷 中 的 文件 起 始 位 置 和 文件 大 
小 ， 如 此 就 可 以 读 到 这 个 图 片 的 内 容 。 

对 于 上 传 图 片 请 求 ，HayStack 存 储 系统 根据 Web 服 务 器 传 过 来 的 图 
片 罗 辑 卷 ID 编号 及 图 片 ID 和 疼 片 数据 ， 将 这 个 图 片 信息 退 加 到 对 应 的 物 
理 卷 文 件 未 尾 ， 同 时 在 内 存 的 映射 表 中 增加 相应 的 映射 信息 。 

如 果 用 户 更 改 了 图 片 的 内 容 后 再 次 上 传 ，HayStack 存 储 系统 不 允许 
履 六 原先 图 片 信息 这 种 操作 ， 因 为 这 种 操作 严重 影响 系统 效率 ， 将 这 个 
修改 的 图 片 当做 一 个 新 的 图 片 奶 加 到 物理 疮 的 文件 末尾 ， 不 过 这 个 图 片 
的 ID 是 不 变 的 。 此 时 有 两 种 可 能 ， 一 种 情况 是 更 改 后 的 图 片 的 逻辑 卷 ID 
和 原始 图 片 的 逻辑 卷 ID 不 同 ， 这 样 更 新 图 片 会 写 入 不 同 的 物理 郑 中 ， 此 
时 目录 服务 修改 图 片 ID 对 应 的 逻辑 卷 映 射 信息 ， 此 后 对 这 个 图 片 的 请 求 
就 下 接 转换 到 更 新 后 的 图 片 ， 原 始 图 片 不 会 再 次 被 访问 ; 另外 一 种 情况 
征 更 改 后 图 片 的 饮 辑 卷 与 原始 图 片 的 逻辑 卷 相 同 ， 此 时 HayStack 存 储 系 
统 将 新 图 片 退 加 到 对 应 的 物理 卷 末 尾 ， 也 就 是 说 ， 同 一 个 物理 卷 会 包含 
图 片 的 新 旧 两 个 版 本 的 数据 ， 但 是 由 于 物理 卷 是 顺序 退 加 的 ， 所 以 更 改 


























后 的 图 片 在 物理 卷 中 的 文件 起 始 位 置 一 定 大 于 原始 图 片 的 起 始 位 置 ， 
HayStack 在 接收 用 户 请 求 时 会 做 判断 ， 读 取 文 件 起 始 位 置 较 大 的 那 张 图 
片 信息 ， 这 样 就 保证 读 取 到 最 新 的 图 片 内 容 。 

如 果 用 户 删 除 某 张 图 片 ，HayStack 系 统 的 操作 也 很 直观 ， 只 要 在 内 
存 映 射 表 中 和 物理 卷 上 将 相应 的 删除 标记 位 置 做 出 标记 即 可 。 系 统 会 在 
适当 的 时 机 回收 这 些 被 删除 的 图 片 数 据 空间 。 


与 前 面 章 节 讲 述 的 云 存 储 系统 比较 而 言 ，HayStack 相 对 简单 直观 。 
Facebook 在 实际 使 用 中 也 证 明了 这 种 Blob 存 储 系统 的 高 效 。 








CAP 和 BASE 原 则 是 理解 目前 云 存储 与 云 计 算 系 统 设计 思路 的 理 
论 基 础 ， 从 系统 发 展 角度 来 说 ， 云 计算 系统 正在 逐步 地 融合 ACID 原则 
的 优点 。 
云 存 储 系 统 的 数据 模型 主要 包含 简单 的 Key/Value 模 型 和 相对 复 
杂 些 的 模式 自由 式 数据 模型 。 
Google 公 司 公布 的 云 存 储 技术 包括 : GFS 文 件 系统 、Chubby 锁 
服务 、BigTable 及 MegaStore 等 一 系列 不 断 进化 的 存储 系统 。 主 从 式 设 计 
是 Google 公 司 在 很 多 系统 中 体现 出 来 的 设计 哲学 。 
Google 公 司 公 布 的 云 计 算 体 系 包 含 Map/Reduce、Percolator 及 
Pregel 等 互补 的 计算 模式 。 
 Dynamo 系 统 是 亚马逊 公司 公开 的 云 存 储 系统 ， 采 取 了 对 等 式 设 
计 思 路 ， 并 且 在 其 系统 实现 引入 了 很 多 新 技术 。Google 公 司 的 主 从 式 设 
计 思 路 和 Dynamo 的 对 等 式 设计 思路 影响 了 很 多 实际 的 云 存 储 系统 。 
PNUTS 是 雅虎 公司 设计 的 云 存储 系统 ， 跨 数据 中 心 存储 、 消 息 
代理 和 时 间 轴 一 致 性 等 方面 是 其 设计 特点 。 
”HayStack 是 Facebook 公 司 用 来 存储 海量 图 片 数 据 的 云 存储 系统 ， 
这 种 Blob 式 存储 也 是 一 种 独 具 特 色 的 云 存储 方案 。 
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手段 来 提高 网 站 排名 ， 这 种 行为 本 身 无 可 厚 非 ， 很 多 优化 行为 是 符合 搜 
索引 擎 排序 规则 的 ， 但 是 也 存在 一 些 恶意 的 优化 行为 ， 通 过 特殊 手段 将 
网 页 的 搜索 排名 提高 到 与 其 网 页 质量 不 相称 的 位 置 ， 这 样 会 严重 影响 搜 
索引 擎 用 户 的 搜索 体验 。 而 搜索 引擎 为 了 保证 排名 的 公正 性 ， 也 需要 对 
MERKIT INTRI Me. MEEA SAR, aS”, KERHA 
All ai FETE, F ERR BENERI SE UAL ETE BE 
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8.1 MAENE 
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索引 擎 排名 中 获得 与 其 网 页 不 相称 的 高 排名 。 搜 索引 擎 排名 一 般 包 含 了 
内 容 相似 性 和 链接 重要 性 计算 ， 内 容 作 浆 主要 针对 的 是 搜索 引擎 排 序 算 
法 中 的 内 容 相 似 性 计算 部 分 ， 通 过 故意 加 大 目标 词 词 频 ， 或 者 在 网 页 重 
要 位 置 引 入 与 网 页 内 容 无 关 的 早 词 来 影响 搜索 结果 排名 。 

















8.1.1 常见 内 容 作 次 手段 
比较 和 常见 的 内 容 作 洛 方 式 包括 如 下 几 种 。 
1. 关键 词 重 复 


对 于 作 次 者 关心 的 目标 关键 词 ， 大 量 重复 设置 在 页 面 内 容 中 。 因 为 
词 频 是 搜索 引擎 相似 度 计算 中 必然 会 考虑 的 因子 ， 关 键 词 重复 本 质 上 是 
通过 提高 目标 关键 词 的 词 频 来 影响 搜索 引擎 内 容 相似 性 排名 的 。 


2. JEKE il ial (EK 


NT few SA) eo HM Site, AER H A APRE 
ANU THE ICA RE], AN Ete EBS, BIDAR RSG AO 
的 单词 词 频 增加 到 非 0 词 频 ， 以 此 吸引 更 多 搜索 引擎 流量 。 

比如 有 的 作 兹 者 在 网 页 的 末端 以 不 可 见 的 方式 加 入 一 堆 单 词 词 表 ， 
也 有 作 浆 者 在 正文 内 容 插入 菏 些 热门 伍 询 词 ， 甚 至 有 些 页 面 内 容 是 徘 机 
器 完全 随机 生成 或 者 利用 其 他 网 页 的 页 面 内 容 片 段 随机 拼凑 而 成 的 。 


3. 图 片 alt 标 签 文本 作 次 

alt 标 签 原本 是 作为 图 片 描 述 信 息 来 使 用 的 ， 一 般 不 会 在 HTML 页 面 
显示 ， 除 非 用 户 将 鼠标 放 在 图 片上 ， 但 是 搜索 引擎 会 利用 这 个 信息 ， 所 
以 有 些 作 次 者 将 alt 标 签 的 内 容 以 作 闵 词汇 来 填充 ， 达 到 吸引 更 多 搜索 流 
量 的 目的 。 

4. PX Hl pp el EE 

网 页 标题 作为 描述 网 页 内 容 的 综述 性 信息 ， 对 于 判断 一 个 网 页 所 讲 
述 的 主题 是 非常 重要 的 局 发 因素 ， 所 以 搜索 引擎 在 计算 相似 性 得 分 时 ， 
往往 会 增加 标题 词汇 的 得 分 权重 。 作 浆 者 利用 这 一 点 ， 将 与 网 页 主题 无 
关 的 目标 词 重复 放置 在 标题 位 置 来 获得 好 的 排名 。 

5. Pl pS ee 


网 页 不 像 普通 格式 的 文本 ， 征 市 有 HTML 标签 的 ， 而 有 些 HTML 标 









































签 代 表 了 强调 内 容重 要 性 的 含义 ， 比 如 加 粗 标记 <b>、</b>， 段 落 标题 
<h>、</h>， 字 体 大 小 标记 等 。 搜 索引 党 一般 会 利用 这 些 信息 进行 排 
序 ， 因 为 这 些 标记 因素 能 够 更 好 地 体现 网 页 的 内 容 所 表现 的 主题 信息 。 
浆 者 通过 在 这 些 重要 位 置 插 入 作 浆 关键 词 也 能 影响 搜索 引擎 排名 结 














6. 网 页 元 信息 作弊 


网 页 元 信息 ， 比 如 网 页 内 容 摘 述 区 (Meta Description) 和 网 页 内 容 
关键 词 区 (Meta Keyword) 是 供 制作 网 页 的 人 对 网 页 主题 信息 进行 简短 
描述 的 ， 同 以 上 情况 类 似 ， 作 浆 者 往往 也 会 通过 在 其 中 插入 作 浆 关键 词 
来 影响 网 页 排名 。 

通过 以 上 几 种 常见 作 疾 手段 的 摘 述 ， 我 们 可 以 看 出 ， 作 次 者 的 作 浆 
意图 主要 有 以 下 几 类 。 

1. 增加 目标 作 浆 词 词 频 来 影响 排名 。 

2. 增加 主题 无 关内 容 或 者 热门 得 询 吸引 流量 。 

3. 关键 位 置 插入 目标 作 浆 词 影响 排名 。 


8.1.2 ”内 容 农 场 《Content Farm) 


Google 在 2011 年 2 月 高 调 宣布 针对 低 质量 网 页 内 容 调整 排序 算法 ， 
据 报道 此 算法 影响 了 大 约 11.8%% 的 网 页 排名 ， 而 这 项 调整 措施 是 专门 针 
对 以 Demand Media 网 站 为 代表 的 内 容 农 场 作 浆 手法 的 。 

图 8-1 是 内 容 农 场 运 作 模 式 的 示意 图 ， 内 容 农 场 运 营 者 廉价 雇佣 大 
量 自由 职业 者 ， 文 持 他 们 付费 写作 ， 但 是 写作 内 容 普 裔 质量 低下 ， 很 多 
文章 是 通过 复制 稍 加 修改 来 完成 的 ， 但 是 他 们 会 研究 搜索 引 苟 的 热门 搜 
索 词 等 ， 并 有 机 地 将 这 些 词汇 添加 到 写作 内 容 中 。 这 样 ， 普 通 搜 索引 擎 
用 户 在 搜索 时 ， 会 被 吸引 进入 内 容 农 场 网 站 ， 通 过 大 量 低 质 量 内 容 吸 引 
流量 ， 内 容 农 场 可 以 赚 取 广告 费用 。 
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图 8-1 ”内容 农场 运营 模式 


与 传统 的 内 容 作 歇 方式 相 比 ， 内 容 农场 不 采用 机 器 拼接 内 容 等 机 械 
方式 ， 而 是 雇佣 和 人员 写 作 ， 但 是 由 于 写作 者 素质 等 原因 决定 了 其 发 布 内 
容 质 量 低 下 ， 这 种 作 束 方式 搜索 引擎 往往 难以 给 出 是 否 作弊 的 明确 界 
定 ， 但 是 又 严重 影响 搜索 结果 质量 ， 所 以 是 一 种 很 难处 理 的 作 歇 手法 。 


8.2 FER EI 
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析 技 术 ， 所 以 通过 操纵 页 面 之 间 的 链接 关系 ， 或 者 操纵 页 面 之 间 的 链接 
锚 文 字 ， 以 此 来 增加 链接 排序 因子 的 得 分 ， 并 影 啊 搜索 结果 排名 的 作 整 
方法 。 常 见 的 链接 作 兹 方法 众多 ， 此 市 简 述 几 种 比较 流行 的 作 兹 方法 。 


1. 链接 农场 (Link Farm) 


为 了 提高 网 页 的 搜索 引擎 链接 排名 ， 链 接 农场 构建 了 大 量 互相 紧密 
链接 的 网 页 集合 ， 期 望 能 够 利用 搜索 引擎 链接 算法 的 机 制 ， 通 过 大 量 相 
互 的 链接 来 提高 网 页 排名 。 链 接 农场 内 的 页 面 链接 密度 极 高 ， 任 意 两 个 
ee ee ee ae 





























图 8-2 ”链接 农场 


2. Google% XE (Google Bombing) 


TEREA PIR SC, HIS EEE T 
R 网 页 的 内 容 主 题 ， 所 以 搜索 引擎 往往 会 在 排序 算法 中 利用 这 一 


作 浆 者 通过 精心 设置 锚 文 字 内 容 来 诱导 搜索 引擎 给 予 目 标 网 页 较 高 
排名 ， 一 般 作 整 者 设置 的 锚 文字 和 目标 网 页 内 容 没 有 什么 关系 。 

几 年 前 曾经 有 个 著名 例子 ， 采 用 Google 故 炸 来 操控 搜索 结果 排名 。 
当时 如 果 用 Google 搜 索 “miserable failure”， 会 发 现 排 在 第 2 位 的 搜索 结果 
是 美国 时 任 总 统 小 布什 的 白宫 页 面 ， 这 就 是 通过 构建 很 多 其 他 网 页 ， 在 
页 面 中 包含 链接 指向 目标 页 面 ， 其 链接 锚 文 字 包 含 “miserable failure” X 
键 词 (参考 图 8-3 和 图 8-4〉 所 达到 的 效果 。 通 过 这 种 方式 就 导致 了 人 们 
看 到 的 搜索 结果 。 
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图 8-3 Google 22K Hh JE IE 





Goo [eh miserable ee = 
Google Search | 


Web images Groups Directory News 
Searched the web for miserable failure. Results 1- 10 of about 257,000. Search took 0.08 seconds 
Tip: In most browsers you can just ha the retum key instead of clicking on the search button 


Wednesday, January 14th, eel cdg pA doe 
Lait ey ene p roeren ba you have written ... 
Descriptor: Official säe of the gadfly of Saians, oiar alba fa cai oad Mena ba hiad 


Category: Ags > >M> 
www michaelmoore. com - 43k - > 


Home > President > Biography President George W oe 
George W. Bush is the 43rd President of the United States. H 
Biography of the pect tom he ofical Wie House web ste 
$ g "5 > 





图 8-4 ” Google 级 炸 后 的 效果 
3. 交换 友情 链接 
作 潍 者 通过 和 其 他 网 站 交换 链接 ， 相 互 指 向 对 方 的 网 页 页 面 ， 以 此 
来 增加 网 页 排名 。 很 多 作弊 者 过 分 地 使 用 此 手段 ， 但 是 并 不 意味 着 使 用 
00055006 6 60 
4. 购买 链接 


有 些 作 浆 者 会 通过 购买 链接 的 方法 ， 即 花 钱 让 一 些 排 名 较 高 的 网 站 
的 链接 指向 自己 的 网 页 ， 以 此 来 提高 网 站 排名 。 


5. 购买 过 期 域名 


有 些 作风 者 会 购买 刚刚 过 期 的 域名 ， 因 为 有 些 过 期 域名 本 里 的 
PageRank 排 名 是 很 高 的 ， 通 过 购买 域名 可 以 获得 高 价值 的 外 链 。 


6. <] R”EÑk (Doorway Pages) 


“ 门 页 本身 不 包含 正文 内 容 ， 而 是 由 大 量 链 接 构 成 的 ， 而 这 些 链 接 
加 同一 网 站 内 的 页 面 ， 作 整 者 通过 制造 大 量 的 “ 门 页 ”来 提升 网 
站 排名 。 


8.3 TU I BE JERNE HS 


T E Beek {EB EF R A R AEE, EHR EDR 
的 页 面 内 容 和 用 户 点 击 碍 看 到 的 页 面 内 容 不 同 ， 以 这 种 方式 来 影响 搜索 
引擎 的 搜索 结果 。 常 见 的 页 面 隐藏 作 星 方 式 有 如 下 几 种 。 

















1. IPH EM CIP Cloaking) 


ARAA a CE IRA a iro 1 IY 8 S| EME AIP HEHE AS, WREN 
ERRI EET UAL, SESAME Ae AN AE, TTR 
oe 则 会 推送 另外 的 网 页 内 容 ， 这 个 页 面 往往 是 有 丙 业 目的 
营销 页 面 。 


2. HTTP K kaJ% E žk (User Agent Cloaking) 


客户 端 和 服务 器 在 获取 网 页 页 面 的 时 候 遵循 HITP 协 议 ， 协 议 中 有 
一 项 叫做 用 户 代理 项 〈User Agent) 。 搜 索引 擎 爬虫 往往 会 在 这 一 项 有 
明显 的 特征 (比如 Google 扑 虫 此 项 可 能 是 : Googlebot/2.1) ， 服 务 器 如 
果 判 断 是 搜索 引擎 爬虫 则 会 推送 与 用 户 看 到 的 不 同 的 页 面 内 容 。 

图 8-5 是 一 个 HTTP 请 求 隐藏 作 浆 的 例子 ， 作 潍 网 站 服务 器 推送 给 搜 
过 引擎 爬虫 的 页 面 是 讲述 减肥 食品 的 内 容 ， 而 推送 给 页 面 访问 者 的 则 是 
减肥 产品 销售 推广 页 面 。 这 样 当 用 户 在 搜索 减肥 知识 的 时 候 束 会 直接 访 
问 减 肥 产 品 页 面 ， 从 而 达到 作 次 者 的 商业 目的 。 


w eight Loss & Slimming 
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"Thousands Who Never Thought They Could... Now 
ose Weight ..and Stay Stim 
with this Physician's Proven Diet 
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图 8-5 ” HTTP 请 求 隐 藏 作 浆 
3. 网 页 重 定 问 


作 浆 者 使 搜索 引擎 索引 某 个 页 面 内 容 ， 但 是 如 果 和 是 用 户 访问 则 将 页 
面 重 定 癌 到 一 个 新 的 页 面 。 


页 面 内 容 隐藏 


通过 一 些 特殊 的 HTML 标 签 设置 ， 将 一 部 分 内 容 显 示 为 用 户 不 可 
见 ， 但 是 对 于 搜索 引擎 来 说 是 可 见 的 。 比 如 设置 网 页 字体 前 景色 和 背景 
色相 同 ， 或 者 在 CSS 中 加 入 不 可 见 层 来 隐藏 页 面 内 容 。 将 隐藏 的 内 容 设 
= 





8.4 Web 2.0/6 TIE 


hz Web 2.0 大 淹 的 兴起 ， 以 用 户 为 中 心 的 信息 产生 和 消费 模式 日 
荔 流 行 ， 这 些 产 品 和 应 用 往往 以 用 户 产 生 内 容 、 内 容 分 诗 与 协作 、 社 会 
化 网 络 等 作为 基本 特征 ， 比 如 博客 、 图 片 分 享 网 站 、Wiki、SNS 网 站 及 


微 博 等 。 针 对 大 量 的 Web 2.0 网 站 ， 也 出 现 了 相应 的 Web 2.076 BETTI 
1. fa EB 


a LAN TEAS VE oH: VERSIE (CSplog) 、 博 客 评论 作 浆 和 
TrackBack{F k. (FREE EM ATE Ze lal, MM SEN ER A 
FAY SR ZR IARA ERS eae BIE a is B pe AA Be 4 AY 
页 。 因 为 市 场 上 存在 大 量 的 博客 空间 提供 商 ， 可 以 免费 开 博 客 ， 所 以 这 
PVE WE RAR, Ith EEE N LE Bait aT AMA. 

博客 博 主 发 布 内 容 ， 往 往 允 许 观 看 博客 的 用 户 发 表 评论 ， 有 些 作 网 
者 利用 这 一 点 ， 在 博客 评论 内 容 里 推广 产品 或 者 增加 指 同 推广 网 页 的 链 
接地 址 ， 这 是 非常 音 见 的 博客 评论 作弊 方式 ， 这 种 方式 在 论坛 和 微 博 等 
场合 中 也 非常 常见 。 

TrackBack 机 制 是 博客 作者 之 间 相 互 引 用 通知 的 机 制 。 比 如 博客 A 发 
表 了 一 篇 博文 ， 之 后 博客 B 看 到 这 篇 文章 后 ， 发 表 了 一 篇 主题 类 似 的 博 
文 ， 并 在 文中 使 用 链接 引用 博客 A 的 博文 ， 如 果 两 者 的 博客 系统 都 支持 
TrackBak 协 议 ， 则 博客 系统 会 自动 在 博客 A 的 文章 后 增加 指 问 博客 B 新 
博文 的 链接 。 博 客 发 布 系统 支持 TrackBack 协 议 的 初 训 是 引导 博客 群体 
形成 讨论 氛围 ， 不 过 很 多 作 浆 者 利用 这 一 点 ， 使 用 自动 TrackBack 群 发 
软件 ， 同 大 量 博文 发 出 TrackBack 链 接 ， 这 样 就 增加 了 作 闵 页 面 被 访问 


的 机 会 。 
2. TFE RK 


目前 很 多 网 站 允许 商品 使 用 者 对 所 消费 的 商品 或 者 服务 做 出 评价 ， 
典型 的 例子 是 < 大众 反 评 网 >。 这 为 作 兹 者 打开 了 男 外 一 个 作 星 通道 ， 作 
浆 者 要 么 在 商品 评论 里 面 加 入 与 所 评论 商品 无 关 的 广告 内 容 来 推广 网 
0 
对 手 产品 等 。 


3. 标签 (Tag) žk 


在 一 些 资源 共享 网 站 (比如 视频 共 译 、 图 片 共 至 等 ) ， 往 往 允 许 用 
三 为 资源 打上 一 些 标 签 ， 来 对 所 分 享 内 容 进行 主题 说 明 ， 其 他 用 户 可 以 
使 用 标签 搜索 等 方式 找到 这 些 资 源 。 作 弊 者 往往 会 在 标签 里 插入 推广 内 
容 ， 这 样 可 以 吸引 流量 。 





























4. SNS ik 


随 着 Facebook 等 SNS 平 台 的 日 益 流 行 ， 在 SNS 平 台 上 作 浆 也 逐渐 发 
展 起 来 。 一 种 典型 的 SNS 作 次 手 段 是 用 户 个 人 摘 述 信息 (Profile〉 作 
闵 。 作 潜 者 建立 一 个 虚假 的 个 人 摘 述 ， 在 其 描述 部 分 利用 色情 等 信息 吸 
引 他 人 ， 并 诱导 其 他 用 户 点 击 其 推广 链接 或 者 是 同一 些 用 户 群 组 群发 广 


告 信 息 。 
5. WEM 


微 博 是 个 人 信息 发 布 平台 ， 以 信息 发 布 的 及 时 性 吸引 了 大 量 的 用 
户 。 同 样 地 ， 作 束 者 也 会 利用 这 个 平台 来 作 浆 。 一 种 典型 的 作 束 方式 
是 : 作 蜂 者 大 量 关 注 他 人 微 博 ， 很 多 人 出 于 礼貌 也 会 将 其 作为 关注 者 
〈( 互 粉 行为 ) ， 在 吸引 到 一 定量 的 关注 者 后 ， 作 弊 者 会 及 布 广告 信息 ， 
人 








另外 一 种 典型 的 作 浆 方式 是 利用 微 博 搜索 平台 ， 作 整 者 密切 关注 热 
门 关键 词 ， 之 后 大 量 发 布 包含 热门 关键 词 的 微 博 ， 里 面包 含 一 些 推广 信 
忠 ， 因 为 很 多 微 博 平台 默认 是 按照 时 间 发 布 先后 来 对 搜索 结果 进行 排序 
E T peeve tie i gee 








8.5 YE BEAR AE A 
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KEME, WORT KE BUR LEME DOA A DIT 23 BOE FEBS 
思路 上 还 是 有 规律 可 循 的 。 从 基本 的 思路 角度 看 ， 可 以 将 反 作 浆 手段 大 
致 划分 为 以 下 3 种 :信任 传播 模型 、 不 信任 传播 模型 和 和 异常 发 现 模 型 。 
其 中 前 两 种 技术 模型 可 以 进一步 抽象 归纳 为 “链接 分 析 ” 一 草 提 到 的 子 集 
传播 模型 ， 为 了 简化 说 明 ， 此 处 不 再 资 述 ， 而 是 直接 将 这 两 个 子 模型 列 
出 。 将 具体 算法 和 这 几 个 模型 建立 起 关系 ， 有 助 于 对 反 作 浆 算法 的 宏观 
思路 和 相互 联系 建立 起 请 晰 的 概念 。 





8.5.1 信任 传播 模型 


图 8-6 展 示 了 信任 传播 模型 的 示意 图 。 所 谓 信任 传播 模型 ， 基 本 思 
路 如 下 : 在 海量 的 网 页 数据 中 ， 通 过 一 定 的 技术 手段 或 者 人 工 半 人 工 手 
段 ， 从 中 筛选 出 部 分 完全 值得 信任 的 页 面 ， 也 就 是 肯定 不 会 作 浆 的 页 面 
(可 以 理解 为 白 名单 ) ， 算 法 以 这 些 白 名 单 内 的 页 面 作为 出 发 点 ， 赋 了 予 
白 名 单 内 的 页 面 节 点 较 高 的 信任 度 分 值 ， 其 他 页 面 是 否 作 浆 ， 要 根据 其 
和 白 名 单 内 节点 的 链接 关系 来 确定 。 白 名 单 内 节点 通过 链接 关系 将 信任 
度 分 值 向 外 扩散 传播 ， 如 果 茶 个 节点 最 后 得 到 的 信任 度 分 值 高 于 一 定 阐 
值 ， 则 认为 没有 问题 ， 而 低 于 这 一 国 值 的 网 页 则 会 被 认为 是 作 浆 网 页 。 








图 8-6 ”信任 传播 模型 示意 
很 多 算法 在 整体 流程 和 算法 框架 上 遵循 如 上 描述 ， 其 区 别 点 往往 体 
现在 以 下 两 方面 。 
a， 如 何 获得 最 初 的 信任 页 面子 集合 ， 不 同 的 方法 手段 可 能 有 差 


FF o 


b. 信任 度 是 如 何 传播 的 ， 不 同 的 方法 可 能 有 细微 差异 。 
8.5.2 不 信任 传播 模型 


图 8-7 展 示 了 不 信任 传播 模型 的 整体 框架 示意 图 。 从 大 的 技术 框架 
上 来 讲 ， 其 和 信任 传播 模型 是 相似 的 ， 最 大 的 区 别 在 于 : 初始 的 页 面子 
集合 不 是 值得 信任 的 页 面 节 点 ， 而 是 确认 存在 作 浆 行为 的 页 面 集合 ， 即 
不 值得 信任 的 页 面 集合 《可 以 理解 为 黑 名单 ) 。 冉 予 黑 名 单 内 页 面市 把 
不 信任 分 值 ， 通 过 链接 关系 将 这 种 不 信任 关系 传播 出 去 ， 如 有 果 最 后 页 面 
节点 的 不 信任 分 值 大 于 设 定 的 靖 值 ， 则 会 被 认为 是 作 浆 网 页 。 








图 8-7 不 信任 传播 模型 的 整体 框架 示意 


同样 ， 很 多 算法 可 以 归 入 这 一 模型 框架 ， 只 是 在 具体 实施 细节 方面 
有 差异 ， 整 体 思路 基本 一 致 。 


8.5.3 ”异常 发 现 模型 
异常 发 现 模型 也 是 一 个 高 度 抽象 化 的 算法 框架 模型 ， 其 基本 假设 认 





为 : ERAR UAFA RIES EN Bik, EREA H Bee A A 
方面 的 ， 也 有 可 能 是 链接 关系 方面 的 。 而 制定 具体 算法 的 流程 往往 是 先 
找到 一 些 作 疾 的 网 页 集合 ， 分 析出 其 异 党 特征 有 了 哪些， 然后 利用 这 些 异 
常 特 征 来 识别 作 次 网 页 。 

具体 来 说 ， 这 个 框 染 模 型 又 可 细 分 为 两 种 子 模型 ， 这 两 种 子 模型 在 
如 何 判 断 异 常 方面 有 不 同 的 考虑 和 角度。 一 种 考虑 角度 比较 直观 ， 即 直接 
从 作 浆 网 页 包含 的 独特 特征 来 构建 算法 《参见 图 8-8) ; Fb AG BE 
则 认为 不 正常 的 网 页 即 为 作 整 网 页 ， 也 融 是 说 ， 征 通过 统计 等 手段 分 析 
正常 的 网 页 应 该 具备 哪些 特征 ， 如 果 网 页 不 具备 这 些 正常 网 页 的 特征 ， 
则 被 认为 是 作 次 网 页 (参见 图 8-9，。 图 8-8 和 图 8-9 体 现 了 这 两 种 不 同 的 
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图 8-8 有 异常 发 现 模型 一 





图 8-9 异常 发 现 模型 二 





尽管 反 作 浆 算法 五 花 八 门 ， 但 是 不 论 采取 哪 种 具体 算法 ， 其 实 都 包 
含 了 一 些 基本 假设 ,经常 被 反 作 浆 算法 使 用 的 基本 假设 有 : 
a. 尽管 作 浆 网 页 喜欢 将 链接 指 问 高 质量 网 页 ， 但 是 很 少 有 高 质量 
网 页 将 链接 指向 作 凌 网 站 。 
b. 作 阁 网 页 之 间 倾 向 于 互相 指 问 。 
很 多 算法 的 基本 思路 都 是 从 这 些 基 本 假设 出 发 来 构造 的 。 


8.6 ”通用 链接 反 作 竞 方法 




















Ar Vs FA Ee ETI“, FRA EPI E MOTE AS iis EAT OT 
UR ATE BET SUR BP MIE SD AT. FRAGA HTB RE EA EPO EE 
Z. AVEDA ERE ERR TT, HE RE RTE ET RA CY o 

ETARTE SELB REM TEE RE, SESE EER 
不 信任 传播 模型 及 图 8-9 所 示 的 异常 发 现 模 型 有 一 个 共同 特点 ， 即 不 需 
要 拿 到 作 闵 网 页 后 进行 单独 的 特征 分 析 ， 然 后 根据 分 析 结 果 构 建 具体 算 
法 。 所 以 如 果 某 个 有 具体 反 作 浆 方法 属于 上 述 3 种 模型 之 一 的 话 ， 都 可 以 
认为 是 一 种 通用 反 作 竞 方法 。 

我 们 分 别针 对 信任 传播 模型 、 不 信任 传播 模型 及 如 图 8-9 所 示 的 异 
常 发 现 模型 介绍 3 个 代表 性 算法 ， 它 们 分 别 是 TrustRank 算 法 、BadRank 
算法 和 SpamRank 算 法 。 





8.6.1 TrustRank 算 法 


TrustRank 算 法 属于 信任 传播 模型 ， 基 本 膛 循 信任 传播 模型 的 流 
程 ， 即 算法 流程 由 如 下 两 个 步骤 组 成 。 


步骤 一 : 确定 值得 信任 的 网 页 集合 


TrustRank 算 法 需要 靠 人 工 审 核 来 判断 某 个 网 页 是 否 应 该 被 放 入 信 
任 网 页 集合 ， 考 虑 到 人 工 审 核 工 作 量 过 大 ， 所 以 提出 了 两 种 初 选 信 任 网 
页 集合 的 策略 ， 在 初 选集 合 基础 上 再 由 人 工 审核 。 

初 选 策略 1: ”高 PageRank 分 值 网 页 ， 即 认为 高 PageRank 得 分 芯 
网 页 是 可 信赖 的 ， 所 以 可 以 对 网 页 计算 PageRank 值 后 ， 提 取 少 量 蜗 分 值 
网 页 作为 初 选 页 面 集合 。 

初 选 策略 2: WiPageRank (Inverse PageRank) ， 在 PageRank 计 
算 过 程 中 ， 是 根据 网 页 入 链 传 入 的 权 值 计 算 的 ， 逆 PageRank 与 此 相反 ， 
根据 网 页 的 出 链 传 出 的 权 值 计算 ， 即 先 将 网 页 之 间 的 链接 指 同 关系 反 
ee 然后 计算 PageRank， 选 取得 分 较 高 的 一 部 分 页 面子 集 作 为 初 选 页 




















步骤 二 : 将 信任 分 值 从 白 名 单 网 页 按照 一 定 方 式 传播 到 
其 他 网 页 


在 这 个 步 又，TrustRank 算 法 的 信任 传播 方式 基于 以 下 两 个 假设 。 





” 假设 1: 距离 可 信 网 页 越 近 越 值得 信任 ， 这 里 的 距离 指 的 是 通过 
多 少 步 链接 中 转 可 以 通达 。 

» 假设 2: 一 个 高 质量 网 页 包含 的 出 链 越 少 ， 那 么 被 指向 的 网 页 是 
高 质量 网 页 的 可 能 性 越 大 。 反 过 来 ， 如 果 出 链 越 多 ， 则 被 指向 网 页 是 高 
质量 网 页 的 可 能 性 越 小 。 

基于 以 上 两 个 假设 ， 在 信任 传播 阶段 ，TrustRank 算 法 引入 了 信任 
衰减 因子 〈Trust Dumpling) 和 信任 分 值 均 分 〈Trust Splitting) 策略 。 

所 谓 信任 衰减 ， 即 距离 可 信 网 页 越 远 的 网 页 ， 通 过 传播 得 到 的 信任 
分 值 越 少 。 图 8-10 说 明了 这 个 策略 。 在 图 8-10 中 ， 节 点 2 从 节点 1 传递 得 
到 信任 分 值 b， 节 点 3 因为 距离 节点 1 更 远 ， 所 以 从 节点 2 获得 的 分 值 为 b 
的 平方 ， 因 为 链接 中 传递 的 信任 分 值 都 在 0 到 1 之 间 ， 所 以 等 于 信任 分 值 
随 独 距离 的 增 大 获得 了 衰减 。 








图 8-10 ”信任 衰减 


所 谓 信任 分 值 均 分 策略 ， 即 将 网 页 获得 的 信任 分 值 按照 出 链 个 数 平 
均 分 配 ， 如 果 一 个 网 页 有 K 个 出 链 ， 则 每 个 出 链 分 配 得 到 1K 的 信任 分 
值 ， 并 将 这 个 分 值 传递 给 出 链 指 癌 的 页 面 ， 图 8-11 说 明了 这 个 集 略 。 在 
图 8-11 中 ， 节 点 1 和 节操 2 的 信任 度 分 值 都 是 1， 节 点 1 有 两 个 出 链 ， 所 以 
每 个 出 链 分 配 得 到 1/2 的 信任 分 值 ， 节 点 2 有 3 个 出 链 ， 所 以 每 个 出 链 获 
得 1/3 的 信任 分 值 ， 节 点 3 被 节点 1 和 节点 2 同时 指向 ， 所 以 通过 传递 获得 
了 5/6 的 信任 分 值 ， 节 点 3 再 将 自己 获得 的 信任 分 值 依次 传递 出 去 。 








图 8-11 信任 分 值 均 分 


通过 结合 以 上 两 个 传播 策略 可 以 在 页 面 节点 图 之 间 传 播 信任 分 值 ， 
在 最 后 的 计算 结果 中 ， 低 于 一 定 信任 度 的 页 面 会 被 认为 是 作 浆 网 页 。 


8.6.2 ”BadRank 算 法 


BadRank 据 传 是 Google 采 用 的 反 链 接 作弊 算法 。 它 是 一 种 典型 的 不 
信任 传播 模型 ， 即 首先 构建 作 浆 网 页 集合 ， 之 后 利用 链接 关系 来 将 这 种 
不 信任 分 值 传递 到 其 他 网 页 。 

BadRank 包 含 的 基本 假设 是 : 如 果 一 个 网 页 将 其 链接 指向 作 浆 页 
面 ， 则 这 个 网 页 也 很 可 能 是 作 洪 网 页 ， 而 如 果 一 个 网 页 被 作 浆 网 页 指 
器 ， 则 不 能 说 明 这 个 网 页 是 有 问题 的 ， 因 为 作 浆 网 页 也 经 常 将 其 链接 指 
向 一 些 知名 网 站 。 所 以 BadRank 的 基本 思路 是 : 找到 那些 有 链接 关系 指 
器 己 知 作 浆 网 页 的 页 面 ， 这 些 页 面 很 可 能 也 是 作 浆 网 页 。 

BadRank 首 先 收集 一 批 已 经 确认 的 作 浆 网 页 形成 作 浆 网 页 集合 ( 黑 
名 单 ) ， 黑 名 单 内 网 页 赋予 较 高 的 不 被 信任 分 值 ， 而 不 被 信任 分 值 是 通 
过 网 页 的 链接 关系 来 进行 传播 的 ， 其 计算 过 程 与 PageRank 基 本 相同 ， 与 
PageRank 不 同 的 是 ，PageRank 是 根据 网 页 的 出 链 来 进行 权 值 传播 ， 而 
BadRank 是 按照 入 链 来 进行 权 值 传播 ， 所 以 可 以 将 BadRank 理 解 为 首先 
将 网 页 之 间 的 链接 指向 关系 反 转 ， 假 设 页 面 A 有 链接 指向 页 面 B， 则 将 
链接 反 转 为 由 B 指 向 A， 之 后 可 以 按照 PageRank 的 计算 方法 进行 计算 。 














BadRank 的 计算 思路 是 非常 有 代表 性 的 ， 后 续 提 出 的 ParentRank 及 
Anti-Trust PageRank 在 整体 思路 上 与 BadRank 是 一 致 的， 基本 上 都 是 不 
信任 传播 模型 的 具体 实现 实例 。 

BadRank 的 计算 思路 很 明显 和 TrustRank 是 互补 的 ， 一 个 方法 是 从 黑 
名 单 出 发 传播 不 信任 关系 ， 另 外 一 个 是 从 白 名 单 出 发 传播 信任 关系 ， 所 
以 两 者 有 天 然 的 互补 性 。 





8.6.3 SpamRank 


SpamRank 是 一 种 典型 的 符合 异常 发 现 模型 的 反 作 浆 方法 ， 也 就 是 
说 ， 首 先 定 义 正 常 的 网 页 或 者 链接 关系 应 该 满足 哪些 特性 ， 如 果 某 些 网 
页 不 满足 这 些 特 性 ， 则 可 以 被 认为 是 异常 的 ， 而 这 些 异 常 网 页 很 可 能 是 
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SpamRank 是 构建 在 PageRank 计 算 之 上 的 反 作 浆 算法 ，PageRank 是 
网 页 重要 性 评价 指标 ， 通 过 全 局 的 链接 关系 可 以 迭代 计算 网 页 的 最 终 
PageRank 值 。 对 于 某 个 网 页 A 来 说 ， 在 最 终 获 得 其 PageRank 值 后 ， 可 以 
分 析 获 得 哪些 网 页 对 于 页 面 A 的 最 终 PageRank 计 算 有 比较 重要 的 影响 ， 
这 些 网 页 被 称 为 网 页 A 的 文 持 者 (Supporter) 。 

SpamRank 的 基本 假设 是 : 对 于 正常 页 面 来 说 ， 其 文 持 者 页 面 的 
PageRank 值 应 该 满足 Power-Law 统 计 分 布 ， 即 PageRank 值 有 大 有 小 。 而 
作 浆 网 页 则 不 然 ， 其 支持 者 页 面 的 PageRank 值 分 布 不 满足 Power-Law 分 
Ai, 具有 如 下 3 个 特点 。 

1. 文 持 者 页 面 数 量 非常 巨大 。 

2. 文 持 者 页 面 的 PageRank 值 得 分 都 较 低 。 

3. 文 持 者 页 面 的 PageRank 值 都 沙 在 一 个 较 小 的 浮动 范围 内 。 

SpamRank 就 是 利用 了 作 浆 网 页 的 支持 者 PageRank 分 值 的 不 正常 分 
布 规 律 来 自动 发 现 可 能 的 作 浆 网 页 的 。 前 先 计算 网 页 的 支持 页 面 有 哪 
些 ， 之 后 判断 其 支持 页 面 的 PageRank 分 布 是 否 违反 了 Power-Law 分 布 ， 
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BadRank 的 思路 ， 通 过 这 些 可 疑 页 面 的 链接 关系 ， 发 现 更 多 可 能 有 问题 
的 网 页 ， 作 为 可 能 的 作 整 网 页 。 

在 SpamRank 算 法 提出 后 ， 叉 陆续 有 类 似 思路 的 算法 提出 ， 比 如 截 
汤 PageRank 算 法 (Truncated PageRank) 等 在 基本 思想 上 和 SpamRank 算 
法 思路 基本 相近 。 这 些 都 是 比较 典型 的 符合 异常 发 现 模 型 的 反 作 浆 算 
es 























8.7 ”专用 链接 反 作 头 技术 


上 一 节 所 述 的 通用 链接 反 作 浆 技术 与 具体 作 浆 方法 无 关 ， 有 具有 通用 
性 ， 只 要 作弊 手段 采用 了 链接 分 析 ， 一 般 都 会 有 一 定 的 识别 作用 。 但 是 
通用 性 的 代价 是 针对 茶 些 具体 的 链接 作 吏 方法 的 ， 其 识别 效果 因为 没有 
针对 性 ， 所 以 可 能 不 会 太 好 ， 专 用 的 链接 反 作 浆 技 术 则 是 非常 有 针对 性 
的 设计 算法 ， 往 往 效果 较 好 。 本 节 简 述 针 对 链接 农场 和 Google 故 炸 的 专 
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8.7.1 ”识别 链接 农场 


链接 农场 是 作 癣 者 精心 构建 起 来 的 页 面 链接 关系 ， 和 正 币 的 链接 必 
然 有 不 同 之 处 。 很 多 研究 通过 比较 正常 网 页 之 间 链 接 关 系 的 统计 规律 ， 
同时 研究 链接 农场 网 页 之 间 的 链接 关系 分 布 规律 ， 通 过 比较 两 者 之 间 的 
差异 来 识别 链接 农场 。 

识别 算法 比较 第 用 的 统计 特征 包括 如 下 几 条 。 

1. 网 页 出 链 的 统计 分 布 规律 ， 正 常 网 页 的 出 链 满 足 Power-law 分 
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2. 网 页 入 链 的 统计 分 布 规律 ， 正 常 网 页 的 入 链 也 满足 Power-law 分 
布 ， 作 弊 网 页 则 违反 该 分 布 。 

3. URL 和 名 称 统计 特征 ， 作 整 网 页 的 网 址 倾 问 于 较 长 ， 包 含 更 多 的 
点 画 线 和 数字 等 。 

4. 很 多 作 束 网 页 的 URL 地 址 尽管 不 同 ， 但 是 闻 第 会 对 应 同一 个 卫 





























5. 网 页 特征 会 随 着 时 间 变 化 ， 比 如 入 链 的 增长 率 、 出 链 的 增长 率 
等 ， 正 汕 网 页 和 作 整 网 页 在 这 些 变化 模式 上 是 不 同 的 。 

除了 对 比 统计 特征 外 ， 还 可 以 利用 链接 农场 的 结构 特征 。 链 接 农场 
的 一 个 结构 特征 是 农场 内 的 网 页 之 间 链 接 关 系 非 第 紧密 ， 这 也 是 可 以 直 
接 用 来 进行 作 兹 识别 的 特征 。 使 用 一 些 紧 密 链 接 子 图 自动 发 现 算 法 ， 可 
以 识别 出 这 些 紧 密 链接 的 页 面子 图 ， 研 究 表明 这 种 紧密 链接 子 图 中 很 大 
比例 确实 是 由 作 兹 网 页 构成 的 。 
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但 是 事实 上 由 于 销 文 字 都 比较 短小 ， 如 果 在 字面 上 和 被 指 疝 页 面 内 
0。 
难度 。 


8.8 RIA AEE 


上 述 章节 是 针对 链接 作 整 方法 的 一 些 可 能 反 制 方法 ， 本 节气 述 针对 
内 容 作 丈 的 一 些 反 制 方法 。 针 对 内 容 作 获 ， 往 往 可 以 采用 一 些 启发 规则 
或 者 内 容 统计 分 析 的 方式 进行 识别 。 

比如 对 于 重复 出 现 关键 词 这 种 作弊 方式 ， 可 以 判断 文本 内 一 定 大 小 
的 窗口 中 是 否 连 续 出 现 同一 关键 词 ， 如 果 是 的 话 则 消除 掉 重 复出 现 的 内 
容 。 

比如 对 于 标题 关键 词 作弊 ， 可 以 判断 标题 词汇 在 文本 正文 出 现 的 比 
例 和 权重 ， 如 果 达 到 一 定 条 件 则 可 判 断 为 标题 关键 词 作 浆 。 

也 可 以 采用 一 些 统计 手段 来 进行 内 容 作 星 识别 ， 比 如 统计 正常 网 页 
中 句子 长 度 的 规律 、 停 用 词 的 分 布 规律 或 者 词性 分 布 规律 等 ， 通 过 比较 
页 面 内 容 统计 属性 是 否 异 常 来 识别 内 容 作弊 的 情况 。 


8.9 chaise ie 
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8.9.1 识别 页 面 隐藏 


页 面 隐藏 的 本 质 特征 是 癌 搜 索引 擎 爬虫 和 用 户 推送 不 同 内 容 的 页 
面 。 所 以 一 个 直观 的 识别 这 种 作弊 方式 的 方法 就 是 对 网 页 做 两 次 抓 取 ， 
第 1 次 是 正 汕 的 搜索 引擎 爬虫 抓 取 ， 第 2 次 抓 取 则 以 模拟 人 工 访问 网 页 的 
方式 抓 取 。 如 宋 两 次 抓 取 到 的 内 容 有 较 大 差异 ， 则 会 认为 是 作 浆 页 面 。 
很 明显 ， 这 种 方法 虽然 有 效 ， 但 是 对 所 有 页 面 做 多 次 抓 取 的 成 本 显然 非 




















常 高 。 

考 谍 到 以 上 方法 的 效率 问题 ， 研 究 人 员 硕 望 将 识别 范围 缩小 。 因 为 
作 次 者 大 都 具有 商业 动机 ， 所 以 他 们 认为 包含 一 些 热 门 查 询 ， 以 及 具有 
商业 价值 查询 词 的 页 面 更 可 能 会 米 取 隐藏 作 浆 。 可 以 从 查询 日 志 中 挖掘 
最 热门 的 查询 ， 同 时 挖掘 出 能 够 引发 搜索 结果 中 出 现 “ 赞 助 商 链接 ”的 商 
业 性 词汇 。 经 过 分 别 使 用 搜索 引擎 疏 虫 和 模拟 人 工 访问 ， 多 次 抓 取 排 在 
搜索 引擎 结果 前 列 的 网 页 ， 并 比较 两 次 下 载 页 面 的 单词 重 登 度 。 研 究 人 
员 肥 现 包含 商业 性 词汇 的 页 面 中 ， 如 果 网 站 采取 了 页 面 隐藏 ， 则 有 98% 
的 内 容 是 作 次 页 面 ， 而 在 包含 热门 查询 词 的 网 页 中 ， 这 个 比例 是 73%。 


8.9.2 ”识别 网 页 重 定 问 


网 页 重 定 同 是 很 容易 识别 的 ， 目 前 大 部 分 搜索 引擎 对 于 采取 了 重 定 
回 的 网 页 都 会 有 相应 的 降 权 惩罚 。 但 是 ， 采 取 了 重 定 辣 的 网 页 未 必 一 定 
就 是 作 束 网 站 ， 如 何 更 精确 地 识别 此 类 作 束 方式 是 个 值得 探讨 的 问题 。 

Strider 系 统 给 出 了 根据 网 页 重 定 疝 来 识别 到 底 哪些 是 作 闵 网 页 的 解 
决 方 案 。 这 个 系统 首先 收集 一 批 作 演 页 面 ， 然 后 根据 这 批 作 兹 网 页 进行 
扩展 ， 如 果 有 在 论坛 中 和 这 些 作 次 URL 经 常 一 起 出 现 的 网 页 链接 ， 会 逐 
步 将 其 扩充 进 可 疑 页 面 集合 。 之 后 ， 依 次 访问 这 些 可 疑 UORL， 并 记录 下 
访问 时 是 否 做 了 重 定向 及 重 定 同 到 哪个 页 面 ， 如 果 茶 个 页 面 被 很 多 可 疑 
URL 章 定 同 指 同 ， 则 认为 这 个 重 定向 地 址 是 作 兹 网 页 ， 反 过 来 ， 那 些 重 
定 癌 到 这 个 作弊 网 页 的 可 疑 URL 也 补 认 为 是 作弊 网 页 ， 其 他 可 疑 URL 则 
可 以 被 认为 是 正常 网 页 。 


8.10 ”搜索 引擎 反 作 闵 综合 框架 


只 要 操纵 搜索 引擎 搜索 结果 能 够 带 来 收益 ， 那 么 作 竞 动机 就 会 始终 
存在 ， 尤 其 是 在 网 络 营 销 起 着 越 来 越 重 要 宣传 作用 的 时 代 尤 其 如 此 。 作 
浆 与 反 作 丈 是 相互 抑制 同时 也 是 相互 促进 的 一 个 互动 过 程 ，“ 道 高 一 
尺 ， 魔 蝇 一 丈 ” 的 故事 不 断 重 演 。 

本 章 前 述 内 容 主要 是 以 技术 手段 来 进行 反 作 兹 ， 而 事实 上 纯粹 技术 
手段 目前 是 无 法 彻 奔 解决 作 兹 问题 的 ， 必 须 将 人 工 手 段 和 技术 手段 相互 
结合 ， 才 能 取得 较 好 的 反 作 星 效果 。 拉 术 手 段 可 以 分 为 相对 通用 的 手段 
和 比较 特殊 的 手段 ， 相 对 通用 的 手段 对 于 可 能 新 出 现 的 作 兹 手法 有 一 定 
的 预防 能 力 ， 但 是 因为 其 通用 性 ， 所 以 针对 性 不 强 ， 对 特殊 的 作 束 方法 
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己 经 友 生 并 且 比 较 严 重 ， 才 可 能 归纳 作 次 特征， 采取 事 后 过 小 的 方法 。 
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人 工 因 系 、 通 用 技术 手段 和 专用 搁 术 手段 。 图 8-12 给 出 了 一 个 综合 反 作 
次 系统 的 框架 ， 用 户 可 以 在 浏览 搜索 结果 甚至 是 上 网 浏览 时 随时 举报 作 
次 网 页 ， 比 如 Google 推 出 了 浏览 费 插 件 来 方便 用 户 举 报 ， 搜 索引 擎 公司 











内 部 会 有 专门 的 团队 来 审核 与 主动 发 现 可 疑 页 面 ， 经 过 审核 确认 的 网 页 
可 以 放 入 黑 名 单 或 者 白 名 单 中 。 


内 部 人 工 审查 —— 党 用 户 举报 





图 8-12 ”综合 反 作 浆 框架 
通用 的 有 反 作 兹 方法 大 体 有 两 类 ， 一 种 类 似 于 BadRank 的 思路 ， 即 从 


黑 名 单 出 发 根据 链接 关系 探寻 哪些 是 有 问题 的 网 页 ; 另外 一 种 类 似 于 
TrustRank 的 思路 ， 即 从 日 名 单 出 友 根 据 链接 关系 排除 挥 那些 没有 问题 
的 网 页 。 两 者 显然 有 互补 关系， 通过 两 者 搭配 可 以 形成 有 效 的 通用 反 作 
浆 屏 障 。 这 种 通用 方法 的 好 处 是 具有 预防 性 ， 哪 怕 是 新 出 现 的 作 浆 方 
式 ， 只 要 作 浆 网 页 需要 通过 链接 关系 进行 操纵 ， 那 么 通用 方法 就 能 在 一 
定 程度 上 起 到 作用 。 但 是 正 是 因为 通用 方法 的 通用 性 ， 所 以 其 反 作 束 思 
路 没有 针对 性 ， 对 于 一 些 特殊 的 作弊 手段 无 法 有 效 发 现 。 此 时 ， 针 对 特 
殊 作 浆 手段 的 方法 形成 了 第 3 道 屏障 ， 即 搜索 引 敬 公司 针对 具体 作 涵 方 
法 采取 专用 技术 手段 来 进行 识别 ， 因 为 有 针对 性 所 以 效果 较 好 ， 但 是 缺 
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综 上 所 述 ， 这 几 种 反 作 静 方法 是 有 互补 关系 存在 的 ， 有 效 融 合 三 者 
才能 够 获得 较 好 的 反 作 浆 效 果 。 


本 章 提 要 
作 浆 与 反 作 疾 相生 相克 ， 只 要 作 兹 存在 经 济 利 益 ， 两 者 斗 搜 一 


定 会 持续 。 
: 和 常见 的 作 疼 方法 包括 : AAEM. GEREVE MR. Kee MR A Web 
2.075 BE 

















通用 反 作 整 手段 大 致 划分 为 以 下 3 种 类 型 : 信任 传播 模型 、 不 信 
任 传播 模型 和 异常 发 现 模 型 。 

纯粹 用 技术 手段 目前 无 法 彻底 解决 作弊 问题 ， 必 须 将 人 工 手段 
和 拉 术 手段 相互 结合 ， 才 能 取得 较 好 的 反 作 歇 效果 。 
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He 用户 合 询 童 图 分 析 


: 得 其 民 ， 斯 得 天 下 全 ， 得 其 民有 道 ， 得 其 心 ， 斯 得 民 
癸 ， 得 其 心 有 道 ， 所 欲 与 之 聚 之 ， 所 恶 匆 施 ， 尔 也 。” 
BET ORK) 
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返回 搜索 结果 ， 过 程 看 似 简单 ， 背 后 其 实 复杂 。 用 户 输入 的 每 个 查询 词 
都 隐 舍 了 其 深层 次 的 但 询 意 图 ， 而 这 些 查 询 意 图 往往 需要 深入 挖掘 才能 
获得 。 

用 户 碍 询 意 图 分 析 目 前 是 搜索 引擎 研 完 的 焦点 领域 ， 只 有 准确 了 解 
搜索 用 户 到 的 想 要 什么 ， 提 供 满 意 服务 才 会 成 为 可 能 。 本 革 主 要 介绍 与 
用 户 查 询 意图 分 析 相 关 的 技术 领域 。 首 先 介 绍 用 户 的 搜索 行为 及 用 户 但 
询 意 图 的 分 类 ， 接 下 来 介绍 对 搜索 日 志 的 不 同 处 理 方法 ， 搜 索 日 志 是 目 
前 搜索 引擎 广泛 采用 的 深入 挖掘 用 户 意图 的 有 效 数 据 源 ， 很 多 技术 手段 
都 是 以 此 作为 基础 的 。 在 本 半 后 续 两 节 将 介绍 相关 搜索 及 查询 纠 错 这 两 
个 非 第 常见 的 搜索 引擎 功能 。 


91 搜索 行为 及 其 意图 


搜索 行为 目前 已 经 成 为 了 每 个 上 网 的 人 的 基本 需求 ， 但 是 用 户 的 搜 
索 行为 是 怎样 一 个 过 程 ? 隐藏 在 用 户 碍 询 背 后 的 搜索 意图 是 什么 ? 这 都 
征 需要 仔细 研究 的 领域 ， 只 有 这 样 才 能 提供 更 好 的 用 户 体验 。 


9.1.1 用 户 搜索 行 为 


用 户 之 所 以 会 产生 搜索 行为 ， 往 往 是 在 解决 任务 时 过 到 自己 不 熟悉 
的 概念 或 者 问题 ， 由 此 产生 了 对 特定 信息 的 需求 ， 之 后 用 户 会 在 头脑 中 
逐步 形成 描述 需求 的 查询 词 ， 将 查询 提交 给 搜索 引擎 ， 然 后 对 搜索 结 
进行 浏览 ， 如 宋 发 现 搜 索 结 果 不 能 完全 解决 用 户 的 信息 需求 ， 则 会 根据 
搜索 结果 的 局 及 ， 改 写 碍 询 ， 以 便 更 精确 地 描述 自己 的 信息 需求 ， 之 后 
重新 构造 新 的 得 询 请 求 ， 提 交 给 搜索 引擎 ， 如 此 形成 用 户 和 搜索 引擎 区 




















互 的 闭合 回路 ， 直 到 搜索 结果 已 经 解决 了 自己 的 需求 或 者 尝试 几 次 无 果 
而 终 。 图 9-1 是 描述 这 种 用 户 搜索 行为 的 示意 图 。 
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图 9-1 用 户 搜索 行为 





从 上 述 过 程 可 以 看 出 ， 从 用 户 产 生 信息 需求 到 最 终 形成 用 户 碍 询 ， 
中 间 有 很 大 的 不 确定 性 ， 用 户 未 必 能 够 一 开始 就 找到 合适 的 查询 词 ， 即 
使 是 找到 了 ， 也 可 能 存在 查询 词 不 能 完全 描述 信息 需求 的 情形 ， 即 在 形 
成 查询 的 过 程 中 存在 信息 丢失 的 问题 。 所 以 后 续 循 环 中 的 碍 询 改 写 就 是 
用 户 逐 步 澄清 搜索 需求 的 一 个 过 程 。 

常见 的 查询 改写 有 3 种 方式 : 抽象 化 改写 、 有 具体 化 改写 及 同 义 重 构 
改写 。 抽 象 化 改写 将 原来 的 查询 进行 语义 抽象 ， 比 如 原先 的 查询 是 “ 东 
北 虎 照片 ”， 经 过 抽象 化 改写 成 为 “老虎 照片 ”因为 “老虎 ”在 语义 概念 
层次 上 要 更 加 宽泛 ， 包 含 了 “东北 虎 " 这 个 概念 ， 所 以 是 一 种 抽象 化 的 过 
程 ， 之 所 以 要 做 这 种 类 型 的 改写 ， 往 往 是 因为 原先 查询 找到 的 东西 太 
少 ， 通 过 概念 泛 化 增加 搜索 的 召回 率 ， 以 此 方式 找到 更 多 的 内 容 。 

具体 化 改写 正好 与 此 相反 ， 从 宽泛 的 语义 概念 下 行 收 宕 ， 比 如 将 碍 
询 “ 室 外 活动 场所 ?改写 为 "踏青 场所 ”， 改 写 后 的 得 询 更 加 基体 ， 这 人 么 做 
可 以 更 加 精确 地 定位 查找 内 容 。 

同 义 重 构 改 写 则 保持 改写 前 后 的 查询 含义 不 变 ， 比 如 将 查询 “ 旧 汽 
车 ”改写 为 “二 手 汽 车 ”"， 两 者 代表 的 含义 是 相同 的 ， 用 户 如 此 改写 往往 





























是 对 原先 查询 的 搜索 结果 不 满意 ， 所 以 换 了 一 种 同 义 说 法 来 搜索 。 


91.2 ”用 户 搜索 意图 分 类 


用 户 发 出 的 每 个 搜索 请 求 背后 都 隐 含 着 潜在 的 搜索 意图 ， 如 果 搜 索 
引 敬 能够 根据 查询 词汇 自动 找 出 背后 的 用 户 搜 索 意 图 ， 然 后 针对 不 同 的 
搜索 意图 ， 提 供 不 同 的 检索 方法 ， 将 更 符合 用 户 意 图 的 搜索 结果 排 在 前 
列 ， 无 疑 会 增加 搜索 引擎 用 户 的 搜索 体验 。 目 前 搜索 引擎 已 经 部 分 实现 
了 这 种 搜索 模式 ， 比 如 用 户 搜索 “北京 ”天 气 ” 的 时 候 会 主动 将 当天 的 气 
温 等 情况 列 在 搜索 结果 最 前 面 。 图 9-2 是 这 种 方法 的 一 个 结构 示意 图 。 
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图 9-2 搜索 意图 分 类 


应 该 将 用 户 意 图 分 为 哪些 类 型 ， 目 前 并 没有 明确 标准 可 言 ， 不 过 很 
多 工作 都 受到 了 Broader 等 人 的 意图 分 类 工作 的 影响 ， 他 们 通过 人 工分 
析 碍 询 ， 将 搜索 意图 分 为 3 个 大 的 类 别 。 

1. 导航 型 搜索 (Navigational) : 这 种 搜索 请 求 的 日 的 是 查找 具 
体 的 某 个 网 站 地 址 ， 比 如 著名 公司 的 网 址 或 者 机 构 的 主页 等 ， 其 特点 是 
想 要 去 某 个 网 页 。 

2. 信息 型 搜索 (Informational) : 这 种 搜索 请 求 的 目的 是 为 了 获 
取 某 种 信息 ， 比 如 “如 何 做 宫 保 鸡 村 ”、“ 美 国 现任 总 统 是 谁 ” 等 ， 其 特点 
是 用 户 想 要 学 到 一 些 新 知识 。 

3. 事务 型 搜索 (Transactional) : 这 种 搜索 请 求 的 目的 是 为 了 完 
成 一 个 目标 明确 的 任务 ， 比 如 下 载 MP3、 下 载 软件 或 者 在 淘宝 购物 等 ， 
其 特点 是 想 要 在 网 上 做 一 些 事情 。 

Broader 的 搜索 意图 三 分 法 非常 有 影响 力 ， 但 是 失 之 于 粗糙 。 雅 虎 
的 研究 人 员 在 此 基础 上 做 了 细 化 ， 将 用 户 搜索 意图 划分 为 如 下 类 别 。 

1. 导航 类 : 用 户 知道 要 去 哪里 ， 但 是 为 了 免 于 输入 URL 或 者 不 知 
道具 体 的 URL， 所 以 用 搜索 引擎 来 查找 。 

2. 信息 类 : 又 可 以 细 分 为 如 下 几 种 子 类 型 。 

直接 型 : 用户 想 知道 关于 一 个 话题 某 个 方面 明确 的 信息 ， 比 
如 “2010 年 话 贝 尔 物 理 奖 获得 者 是 谁 ” 或 者 “为 何 星星 会 发 光 ” 等 。 

间接 型 用 户 想 了 解 关 于 某 个 话题 的 任意 方面 的 信息 ， 比 如 粉 
丝 搜索 “李宇春 ”等 。 

”建议 型 ， 用 户 希 望 能 够 搜索 到 一 些 建议 、 意 见 或 者 某 方面 的 指 
导 ， 比 如 “如 何 才 能 戒烟 ”等 。 

”定位 型 用 户 希 望 了 解 在 现实 生活 中 哪里 可 以 找到 某 些 产 品 或 
服务 ， 比 如 “ 买 电 话 卡 ”等 。 

”列表 型 : 用 户 希 望 找到 一 批 能 够 满足 需求 的 信息 ， 比 如 “北京 中 
关 村 附近 的 饭店 ?等 。 

3. 资源 类 : 这 种 类 型 的 搜索 目的 是 希望 能 够 从 网 络 上 获取 某 种 资 
源 ， 又 可 以 细 分 为 如 下 几 种 子 类 型 。 

下 载 型 : 和 希望 从 网 络 某 个 地 方 下 载 想 要 的 产品 或 者 服务 ， 比 
如 “下 载 Win7” 等 。 
. RKE: 用 户 出 于 消 遗 的 目的 希望 获得 一 些 有 关 信息 ， 比 如 “下 


























交互 型 ， 用户 希望 使 用 茶 个 互联 网 软件 或 者 服务 提供 的 结 
比如 “北京 ”天 气 ” 用 户 希 望 找到 一 个 网 站 ， 在 这 个 网 站 上 可 以 但 询 北 
各 的 天 气 情况 。 

” 获取 型 : 用 户 和 希望 获取 一 种 资源 ， 这 种 资源 的 使 用 场合 不 限于 
电脑 ， 比 如 “折扣 券 >， 用 户 和 希望 搜 到 茶 个 产品 的 折扣 券 ， 打 印 之 后 在 现 
实生 活 中 使 用 。 

上 述 是 对 用 户 意 图 的 人 工整 理 分 类 ， 至 于 有 具体 技术 实现 ， 则 可 以 采 
取 一 些 通 用 的 分 类 算法 比如 SVM、 决 策 树 等 完成 。 


9.2 ”搜索 日 志 挖 掘 
搜索 日 志 (Query Log) 是 搜索 引擎 对 用 户 行为 的 记录 ， 通 过 记载 


用 户 行 为 ， 可 以 构建 更 好 的 算法 以 使 得 搜索 结果 更 准确 及 更 具有 个 性 化 
色彩 ， 搜 索 日 志 一 般 会 记载 用 己 发 出 的 查询 ， 发 出 查询 的 时 间 ， 点 击 过 
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从 图 中 可 以 看 出 ， 搜 索 日 志 每 一 条 记录 记载 了 但 询 、 发 出 查询 的 用 
户 ID、 发 出 查询 的 时 间 、 点 击 网 页 的 网 址 及 这 条 网 址 在 搜索 结果 中 的 排 
得 的 。 

搜索 日 志 包 含 了 很 多 可 用 的 信息 ， 从 中 可 以 挖掘 有 价值 的 数据 来 帮 
助 搜 索引 擎 改善 搜索 质量 ， 在 使 用 搜索 日 志 前 ， 一 般 会 对 搜索 日 志 进 行 
整理 ， 将 原始 形式 的 查询 日 志 转 换 为 意义 更 清晰 的 中 间 数 据 ， 币 用 的 中 
间 数 据 包括 : 查询 会 话 、 点 击 图 及 查询 图 。 搜 索引 擎 在 这 些 中 间 数 据 基 
础 上 ， 可 以 充分 利用 用 户 查 询 信 息 来 改善 应 用 。 











9.2.1 ”查询 会 话 (Query Session) 


通过 挖掘 搜索 日 志 ， 可 以 将 同一 用 户 在 较 短 时 间 段 内 发 出 的 连续 多 
个 查询 找 出 ， 这 样 一 段 日 志 被 称 做 一 个 查询 会 话 。 比 如 茶 个 用 户 想 要 购 
买 数码 相机 ， 在 几 分 钟 内 连续 同 搜 索引 擎 发 出 : “数码 相机 报价 ~“ 尼 
oe “尼康 相机 评价 ”等 一 系列 查询 ， 这 形成 了 一 个 查询 会 
话 。 

通过 这 种 方式 ， 可 以 把 原始 搜索 日 志 转 换 为 很 多 查询 会 话 ， 仁 询 会 
话 内 的 搜索 请 求 因为 是 同一 用 户 在 较 短 时 间 段 内 发 出 的 ， 所 以 这 些 查 询 
往往 有 一 定 的 语义 相关 性 。 这 种 语义 相关 性 可 以 被 用 来 开发 相关 搜索 推 
存 等 具体 的 搜索 应 用 。 


9.2.2 ”点 击 图 (Click Graph) 


除了 查询 会 话 外 ， 男 外 一 种 常用 的 中 间 数 据 是 点 击 图 。 从 搜索 日 志 
记录 可 以 看 到 ， 用 户 发 出 某 个 查询 后 ， 搜 索引 擎 返回 搜索 结果 ， 而 用 户 
会 有 选择 地 点 击 其 中 某 些 链接 。 这 种 用 户 点 击 行为 是 很 有 意义 的 ， 一 般 
可 以 假设 : 用 户 之 所 以 会 点 击 这 个 网 址 ， 是 因为 用 户 在 看 了 网 页 标题 和 
搜索 引 苟 摘要 后 ， 认 为 这 个 网 页 是 和 查询 比较 相关 的 ， 所 以 才 会 点 击 。 
也 就 是 说 ， 可 以 认为 搜索 结果 里 被 点 击 过 的 网 页 与 用 户 碍 询 更 相关 。 虽 
然 这 种 假设 并 不 总 是 成 立 ， 但 是 这 类 数据 在 实践 中 是 非常 有 用 的 。 

将 查询 和 这 个 查询 对 应 的 点 击 网 址 联系 起 来 ， 可 以 构建 点 击 图 ， 这 
是 一 种 二 分 图 ， 一 痊 的 图 节点 是 所 有 用 户 发 出 的 查询 条 件 ， 男 一 靖 的 图 
节点 是 互联 网 网 页 的 网 址 ， 如 果 发 出 查询 的 用 户 点 击 过 某 个 网 址 ， 则 在 
查询 节点 和 网 址 节点 之 间 建 立 有 同 边 ， 同 时 这 个 有 辣 边 可 以 设 定 权 重 ， 
一 般 用 点 击 次 数 来 作为 边 的 权重 。 

图 9-4 是 用 户 点 击 图 的 一 个 示例 ， 二 分 图 左 侧 是 用 户 查 询 ， 右 侧 是 
网 页 网 址 ， 比 如 对 于 用 户 人 查询“ 打折 机 票 ” 来 说 ， 一 般 会 点 击 “ 携 程 旅行 
网 ”Cwwwo.ctrip.com) 和 “去 哪儿 ”(flight.qunar.com) 的 网 页 ， 所 以 在 
两 类 节点 之 间 有 边 联 系 ， 同 时 点 击 次 数 可 以 作为 边 的 权 值 。 












































用 户 查 询 网 址 





图 9-4 用 户 点 击 图 的 一 个 示例 
点 击 图 是 非常 有 价值 的 信息 ， 比 如 从 图 9-4 可 以 看 出 ， 查 询 “ 旅 


行 ? 和 "“ 打 折 机 票 ” 共 同 的 点 击 网 址 是 携程 网 ， 这 从 某 种 角度 说 明 这 两 个 
查询 是 语义 相关 的 ， 所 以 从 点 击 图 中 可 以 挖掘 大 量 语义 相关 信息 。 





9.2.3 ”查询 图 (Query Graph) 


用 户 发 出 的 碍 询 之 间 是 有 语义 关联 的 ， 碍 询 图 就 是 试图 构建 得 询 之 
间 相 互 关 系 的 一 种 数据 表示 。 图 9-5 给 出 了 一 个 示例 ， 图 中 的 节点 是 用 
户 发 出 的 查询 ， 而 边 上 的 权重 则 体现 了 查询 之 间 的 语义 相关 程度 。 








图 9-5 查询 图 示例 
有 和 若干 种 办 法 可 以 构建 这 种 查询 图 ，Baeza-Yates 提 出 了 5 种 构建 查 


询 图 的 方法 。 

1. 可 以 用 两 个 查询 中 重合 的 单词 数目 来 衡量 ， 重 合 程度 越 高 ， 两 
个 查询 的 相似 性 越 大 。 

2. 如 果 两 个 查询 属于 同一 个 查询 会 话 ， 则 可 以 在 两 者 之 间 建 立 联 











eee eee 则 可 认为 两 者 有 
语义 关联 。 

4. 在 扣 击 图 中 ， 如 果 两 个 网 址 有 和 链接 关系 ， 则 其 对 应 的 查询 可 以 
建 并 语义 关系 。 假 设 在 图 9-4 中 雅虎 主页 www.yahoo.cn 有 指向 谷歌 地 图 
的 链接 ， 则 伍 询 “雅虎 * 和 “旅行 ”可 以 在 伍 询 图 中 建立 边 。 

5. 在 点 击 图 中 ， 如 果 两 个 网 址 的 页 面 内 容 主题 相近 ， 那 么 其 对 应 
的 查询 可 以 建立 语义 关系。 比如 在 图 9-4 中 ， 因 为 “携程 旅行 网 ”和 “去 哪 
儿 ” 网 站 在 页 面 内 容 上 比较 类 似 ， 所 以 与 它们 有 关联 的 查询 词 语义 相 
关 ， 即 可 以 在 “旅行 "? 和 “打折 机 票 * 这 两 个 查询 之 间 建 并 语义 联系 。 











利用 碍 询 图 ， 可 以 发 现 查 询 之 间 的 相似 性 ， 在 此 基础 上 ， 可 以 构建 
具体 应 用 来 使 用 这 种 信息 。 


9.3 ”相关 搜索 


相关 搜索 也 常 被 称 做 查询 推荐 ， 也 就 是 说 用 户 输入 茶 个 查询 后 ， 搜 
索引 苟同 用 户 推 荐 与 用 户 输入 但 询 语义 相关 的 其 他 人 查询。 用 户 对 于 自己 
的 信息 需求 ， 不 一 定 能 够 准确 地 想到 合适 的 搜索 词 来 表达 搜索 意图 ， 相 
天 搜索 可 以 给 用 户 提 示 ， 如 果 用 户 觉 得 搜索 引擎 推 荐 的 查询 更 适合 上 自己 
的 搜索 意图 ， 那 么 会 改善 用 户 体 验 。 

相关 搜索 目前 已 经 是 搜索 引擎 提 供 的 标准 配置 功能 ， 图 9-6 是 输 
入 “姚明 ”作为 查询 请 求 时 ，Google 的 相关 搜索 提供 的 结果 。 


姚明 的 相关 搜索 
nfs sA 姚明 交易 
姚明 叶莉 离婚 ”姚明 蓄 善 赛 








姚明 视频 姚明 跳出 合同 
姚明 旗手 劳 伦 杰 克 还 姚明 
WEA 3B Bk BA E a 





图 9-6 ”Google 对 查询 “姚明 ”的 相关 搜索 


EAA, RRI UT SO Ae ae? 目前 主流 的 做 法 有 
两 类 : 基于 碍 询 会 话 的 方法 和 基于 点 击 图 的 方法 。 


9.3.1 基于 查询 会 话 的 方法 


对 于 原始 搜索 日 志 ， 搜 索引 擎 会 对 其 做 初步 整理 ， 而 查询 会 话 是 其 
中 一 种 整理 方式 。 每 个 查询 会 话 包含 了 茶 个 固定 用 户 在 较 短 时 间 内 连续 
发 出 的 查询 流 ， 一 般 而 言 ， 在 同一 查询 会 话 内 的 查询 相互 之 间 存 在 语义 
联系 ， 而 基于 得 询 会 话 来 进行 相关 搜索 推荐 的 方法 就 是 利用 了 这 一 点 。 
图 9-7 是 这 种 方法 的 简明 示意 图 。 搜 索引 擎 将 原始 搜索 日 志 转 换 为 
大 量 的 查询 会 话 ， 之 后 末 用 关联 规则 挖掘 等 各 种 数据 挖掘 算法 来 对 查询 





会 话 进行 统计 处 理 ， 挖 掘 结 果 往 往 是 一 批 得 询 对 <Qx,Qy>， 这 代表 Qx 和 
Qy 在 查询 会 话 里 是 经 第 一 起 出 现 的 ， 所 以 当 用 户 输入 其 中 茶 一 个 但 询 
的 时 候 ， 可 以 推荐 给 用 户 男 外 一 个 查询 作为 相关 搜索 结果 。 








图 9-7 EP AW STKE H 


这 种 方法 思路 简单 ， 但 是 存在 两 个 缺点 : 一 个 是 查询 会 话 的 准确 切 
制 有 一 定 难 度 ; 男 外 ， 因 为 查询 会 话 是 以 同一 用 户 的 输入 为 基准 的 ， 所 
以 在 挖掘 结果 里 不 能 体现 不 同 用 户 的 碍 询 之 间 的 关联 。 


9.3.2 ”基于 所 击 图 的 方法 


前 文 讲 过 ， 点 击 图 是 对 原始 搜索 日 志 整 理 后 的 男 外 一 种 中 间 结 果 ， 
很 多 算法 使 用 点 击 图 来 进行 查询 推荐 。 尽 管 方法 很 多 ， 但 是 其 基本 指导 
思想 是 相同 的 : 如 果 两 个 查询 各 自 对 应 的 点 击 网 址 中 ， 有 很 大 比例 是 相 
0 
H TA) o 
图 9-8 是 一 个 较为 通用 的 利用 点 击 图 来 探寻 语义 相关 查询 的 方法 示 
意图 。 总 的 来 说 ， 这 种 方法 由 两 个 步骤 构成 。 首 先 ， 根 据点 击 图 可 以 将 
查询 表示 为 其 对 应 点 击 网 址 的 权重 向 量 ， 比 如 图 中 的 q2 这 个 查询 ， 因 为 
用 户 发 出 这 个 查询 后 点 击 过 D2 和 D3 两 个 网 址 ， 且 其 点 击 次 数 分 别 是 10 
和 8， 所 以 可 以 构造 向 量 [0,10,8,0]， 癌 量 的 每 一 维度 代表 一 个 网 址 ， 以 




















点 击 次 数 作为 对 应 的 权重 。 在 做 出 以 上 处 理 后 ， 就 可 以 进行 第 2 步 ， 计 
算 任意 两 个 查询 之 间 的 相似 度 ， 在 此 基础 上 采用 不 同 的 聚 类 算法 可 以 将 
碍 询 聚 合成 大 小 不 同 的 类 别 ， 被 聚合 到 同一 类 别 内 的 查询 可 以 相互 作为 
相关 搜索 的 结果 推荐 给 用 户 ， 比 如 在 图 9-8 的 例子 中 ， 用 户 输入 查询 
q2， 可 以 将 93 和 q4 作 为 相关 搜索 的 结果 推荐 给 用 户 。 

MEE ‘a 
=[5,0,0, 
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图 9-8 ”基于 点 击 图 的 相关 查询 推荐 


上 述 是 一 个 通用 的 基本 算法 框架 ， 不 同 的 研究 者 提出 了 各 种 扩展 算 
法 ， 比 如 在 设 定 碍 询 的 权重 癌 量 时 ， 不 仅 考虑 点 击 关 系 ， 还 可 以 将 点 击 
网 址 的 网 页 内 容 相 似 性 考虑 进来 等 ， 同 时 ， 在 聚 类 算法 方面 也 可 以 采用 
不 同 的 方法 来 实现 具体 系统 。 

基于 点 击 图 的 方法 是 非常 常见 的 做 法 ， 但 是 其 也 有 自身 的 缺点 : 由 
于 点 击 图 数据 量 非常 庞大 ， 一 般 聚 类 算法 如 何 能 够 快速 处 理 如 此 大 量 的 
数据 是 有 挑战 性 的 。 


9.4 ”查询 纠 错 


用 户 通 过 键盘 融入 合 询 的 时 候 ， 一 种 很 常见 的 错误 是 输 错字 符 ， 比 
WE APS hee APS”. SiR, RASA, AAG 








10% 一 15%% 的 查询 是 错误 输入 的 ， 所 以 如 何 能 够 自动 纠正 用 户 的 错误 得 
询 ， 这 对 于 搜索 结果 质量 提升 有 很 大 帮助 。 

英文 的 输入 错误 主要 有 两 大 类 型 : 一 种 是 键盘 散 击 错误 ， 比 如 把 i 
错 敲 击 为 ， 或 者 是 多 敲 击 了 一 个 字符 等 ， 男 外 一 种 是 音节 错误 ， 两 个 
单词 发 音 相 同 但 是 输入 是 错误 的 ， 比 如 将 two 错 输 为 too 等 。 对 于 中 文 来 
说 ， 往 往 需 要 经 过 中 文 输入 法 作为 中 介 ， 所 以 更 容易 因 选 择 了 输入 法 的 
错误 选项 ， 导 致 错 输入 同音 词 ， 即 更 容易 出 现 音 节 类 型 错误 。 

从 大 的 流程 上 讲 ， 查 询 纠 错 分 为 两 个 步骤 。 首 先 在 众多 的 查询 中 ， 
有 正确 的 有 错误 的 ， 如 何 识别 哪些 查询 是 错误 的 ?这 个 需要 错误 识别 机 
制 来 达到 此 目的 。 再 者 如 果 发 现 某 个 查询 输 错 了 ， 如 何 找到 正确 的 输 
A? 这 个 需要 错误 纠正 模块 来 实现 此 功能 。 图 9-9 展 示 了 一 个 查询 纠 错 
的 整体 流程 和 构成 模块 。 

















图 9-9 一 个 查询 纠 错 的 整体 流程 和 构成 模块 


大 多 数 错 误 识 别 机 制 是 基于 词典 的 ， 即 将 用 户 输入 的 碍 询 分 词 后 奉 
找 词典 ， 如 果 在 词典 里 没有 找到 ， 那 么 这 很 可 能 是 一 个 错误 输入 。 

至 于 错误 纠正 则 有 各 种 不 同 的 算法 ， 常 见 的 方法 有 两 种 : 编辑 距离 
和 噪声 信道 模型 。 





9.4.1 ”编辑 距离 (Edit Distance) 


利用 编辑 距离 来 纠正 拼写 错误 历史 悠久 ， 大 约 在 20 世 纪 60 年 代 就 开 
台 采 用 这 种 方法 。 这 是 一 种 用 来 衡量 两 个 字符 串 的 拼写 差异 有 多 大 的 算 
法 ， 对 于 某 个 字符 串 S 来 说 ， 可 以 通过 对 其 进行 几 种 操作 ， 来 逐步 将 其 





转换 为 字符 串 T， 这 些 操作 包括 删除 字符 、 添 加 字符 、 更 改 字 符 及 交换 

字符 顺序 4 种 操作 。 转 换 过 程 中 所 需 操 作 步 骤 越 多 ， 则 其 编辑 距离 越 

大 ， 也 意味 着 这 两 个 字符 串 差 异 越 大 。 图 9-10 给 出 了 将 错误 单词 

Mcirossat 转 换 为 Microsoft 的 过 程 ， 从 这 个 例子 可 以 看 出 ， 两 个 单词 的 编 

辑 距 离 为 4， 也 就 是 说 从 原始 字符 串 转 换 为 目标 字符 串 使 用 了 4 步 操作 。 

如 果 需 要 计算 的 数据 量 比较 大 ， 编 辑 距离 的 效率 会 成 问题 。 
Ti z 











Mcirossat 变 身 过 程 
图 9-10 ”编辑 距离 示例 


9.4.2 ”噪声 信道 模型 (Noise Channel Model) 


噪声 信道 模型 可 以 理解 为 正确 的 查询 通过 一 个 噪声 信道 传输 ， 在 传 
输 过 程 中 受到 外 界 和 干扰， 导致 在 信息 接收 端 收 到 的 查询 发 生 错 误 ， 图 9- 
11 是 噪声 信道 模型 的 原理 示意 。 





图 9-11 噪声 信道 模型 的 原理 示意 





给 定 错误 查询 V 及 其 对 应 的 可 能 正确 查询 W， 噪 声 信道 模型 将 查询 
纠 错 任务 转换 成 了 估计 概率 P (W|V) ， 其 含义 是 : 接收 到 错误 的 查询 


V， 这 个 查询 对 应 的 正确 查询 是 W 的 概率 有 多 大 ， 对 于 多 个 候选 正确 答 
案 ， 选 择 概率 值 最 大 的 作为 V 对 应 的 正确 查询 。 将 P〈W |V) 根据 贝 叶 
斯 公式 转 写 为 : 
P (W|V) =P (V|W) xP CW) /P CV) 

因为 对 于 多 个 候选 答案 W1，W2，...，Wn 来 说 ， 这 个 公式 的 分 母 

PCV) 都 是 相同 的 ， 所 以 可 以 忽略 不 计 ， 于 是 问题 转换 成 求 : 
Argmax (P (V|W) xP (W) ) 

就 是 说 哪个 候选 答案 Wi 使 得 上 面 公式 得 分 最 大 ， 那 么 这 个 Wi 就 是 
错误 查询 V 对 应 的 正确 查询 。 

上 述 公 式 又 可 以 分 为 两 个 因子 : P (V |W) 5P CW) 。 
P(V |W) 被 称 为 错误 模型 ， 即 正确 查询 W 被 错 写成 V 的 概率 ， 具 体 计 
算 方 法 有 很 多 种 ， 比 如 可 以 用 上 节 提 到 的 编辑 距离 计算 ， 也 可 以 收集 一 
些 被 错误 拼写 的 查询 例子 ， 用 这 些 例子 的 统计 数据 来 计算 错误 模型 。 
P CW) 被 称 为 语言 模型 ， 可 以 通过 计算 查询 W 在 所 有 查询 中 出 现 的 概 
率 值 来 估计 。 如 果 可 以 估计 以 上 两 个 因子 ， 就 可 以 计算 哪个 Wi 是 错误 
查询 V 的 正确 输入 。 


本 章 提 要 
准确 分 析 用 户 的 搜索 意图 是 目前 搜索 引擎 研发 的 漳 流 与 重点 方 











用 户 的 搜索 意图 可 以 粗 分 为 导航 型 、 信 息 型 和 事务 型 。 
”搜索 日 志 是 深入 挖掘 用 户 潜在 搜索 意图 最 常用 的 数据 来 源 ， 而 
扩 击 图 、 查 询 会 话 和 全 询 图 是 由 搜索 日 志 整 理 出 的 基础 数据 。 
相关 搜索 和 俘 询 纠 错 是 非常 常见 的 帮助 用 户 湾 清 搜索 意图 的 其 
体 应 用 。 
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第 10 章 ”网 页 去 重 


“< 天 之 道 ， 其 犹 张 弓 软 ? 高 者 抑 之 ， 下 者 举 之 ， 有 从 者 损 之 ， 不 足 者 补 
之 。 天 之 道 ， 损 有 饼 而 补 不 足 。 人 之 道 ， 则 不 然 ， 损 不 足以 奉 有 人 乌 。 
就 能 有 从 以 奉天 下 ， 唯 有 道 者 。” | 

QZT Gime) 





统计 结果 表明 ， 近 似 重复 网 页 (Near Duplicate Web Page) 的 数量 
占 网 页 总 数 的 比例 高 达 全 部 页 面 的 29%， 而 完全 相同 的 页 面 大 约 占 全 部 
页 面 的 22%， 即 互联 网 页 面 中 有 相当 大 比例 的 内 容 是 完全 相同 或 者 大 体 
相近 的 。 图 10-1 给 出 了 一 个 示例 ， 例 子 中 的 新 闻 主 体内 容 是 几乎 完全 相 
同 i 但 是 两 个 页 面 的 网 页 布局 有 较 大 差异 ， 此 种 情况 在 互联 网 中 非常 
常见 。 
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图 10-1 近似 重复 网 页 示例 


近似 重复 网 页 有 多 种 类 型 ， 这 些 重 复 网 页 有 的 是 没有 一 点 儿 改 动 的 
副本 ， 有 的 在 内 容 上 稍 做 修改 ， 比 如 同一 文章 的 不 同 版 本 ， 一 个 新 一 
点 ， 一 个 老 一 点 ， 有 的 则 仅仅 是 网 页 的 格式 不 同 〈 如 HTML、 
Postscript) 。 内 容重 复 可 以 归结 为 以 下 4 种 类 型 。 

类 型 一 : 如 果 两 篇 文档 内 容 和 布局 格式 上 过 无 差别 ， 则 这 种 重 
复 可 以 叫做 完全 重复 页 面 。 

类 型 二 : 如 果 两 篇 文档 内 容 相 同 ， 但 是 布局 格式 不 同 ， 则 叫做 
内 容重 复 页 面 。 

类 型 三 : 如果 两 篇 文档 有 部 分 重要 的 内 容 相同 ， 并 且 布 局 格式 
相同 ， 则 称 为 布局 重复 页 面 。 

类 型 四 : ”如 果 两 篇 文档 有 部 分 重要 的 内 容 相同 ， 但 是 布局 格式 
不 同 ， 则 称 为 部 分 重复 页 面 。 























所 谓 近 似 重 复 网 页 发 现 ， 就 是 通过 技术 手段 快速 全 面 发 现 这 些 重 复 
信息 的 手段 ， 如 何 快速 准确 地 发 现 这 些 内 容 上 相似 的 网 页 已 经 成 为 提高 
搜索 引擎 服务 质量 的 关键 技术 之 一 。 

发 现 完 全 相同 或 者 近似 重复 网 页 对 于 搜索 引擎 有 很 多 好 处 。 

1. 首先 ， 如 有 果 我 们 能 够 找 出 这 些 重 复 网 页 并 从 数据 库 中 去 掉 ， 就 
能 够 节省 一 部 分 存储 空间 ， 进 而 可 以 利用 这 部 分 空间 存放 更 多 的 有 效 网 
页 内 容 ， 同 时 也 提高 了 搜索 引擎 的 搜索 质量 和 用 尸体 验 。 

2 其次， 如果 我 们 能 够 通过 对 以 往 收集 信息 的 分 析 ， 预 匈 发 现 重 
复 网 页 ， 在 今后 的 网 页 收集 过 程 中 就 可 以 避 开 这 些 网 页 ， 从 而 提高 网 页 
的 收集 速度 。 有 研究 表明 重复 网 页 随 着 时 间 不 发 生 太 大 变化 ， 所 以 这 种 
从 重复 页 面 集合 中 选择 部 分 页 面 进 行 索引 是 有 效 的 。 

3. 另外 ， 如 果 茶 个 网 页 的 镜像 度 较 高 ， 往 往 是 其 内 容 比较 受 欢 迎 
的 一 种 间接 体现 ， 也 就 预示 痢 该 网 页 相对 重要 ， 在 收集 网 页 时 应 赋予 它 
较 遍 的 优先 级 ， 而 当 搜 索引 苟 系 统 在 啊 应 用 户 的 检索 请 求 并 对 输出 结果 
排序 时 ， 应 该 赋予 它 较 高 的 权 值 。 

4. 从 态 外 一 个 角度 看 ， 如 果 用 户 点 击 了 一 个 死 链接 ， 那 么 可 以 将 
用 户 引 导 到 一 个 内 容 相同 页 面 ， 这 样 可 以 有 效 地 增加 用 户 的 检索 体验 。 
因而 近似 重复 网 页 的 及 时 发 现 有 利于 改善 搜索 引擎 系统 的 服务 质量 。 

实际 工作 的 搜索 引擎 往往 是 在 息 虫 阶段 进行 近似 重复 检测 的 ， 图 
10-2 给 出 了 近似 重复 检 疯 任务 在 搜索 引擎 中 所 处 流程 的 说 明 。 妆 扑 虫 新 
抓 取 到 网 页 时 ， 需 要 和 已 经 建立 到 索引 内 的 网 页 进行 重复 判断 ， 如 宋 判 
断 是 近似 重复 网 页 ， 则 直接 将 其 抛 茎 ， 如 果 发 现 是 全 新 的 内 容 ， 则 将 其 
加 入 网 页 索引 中 。 



























抽取 链接 
— => 


个 
某 个 网 页 HTML 
Document 





图 10-2 ”近似 重复 检测 任务 在 搜索 引擎 中 所 处 流程 说 明 


10.1 通用 去 重 算法 框架 


对 于 网 页 去 重任 务 ， 有 具体 可 以 采取 的 技术 手段 五 伦 八 门 ， 各 有 创新 
与 特色 ,但 是 如 果 仔 细 研 究 ， 大 部 分 算法 的 整体 流程 和 框架 有 诸多 相似 
之 处 ， 本 节 参 考 一 些 实践 效果 较 好 的 去 重 算法 ， 并 归纳 整理 ， 总 结 了 相 
对 通用 的 算法 框架 。 尺 管 很 多 算法 看 似 锭 异 ， 其 框架 实则 雷同 ， 这 与 去 
ee en 








图 10-3 给 出 了 这 个 通用 算法 框架 的 流程 图 ， 对 于 给 定 的 文档 ， 首 先 
通过 一 定 的 特征 抽取 手段 ， 从 文档 中 抽取 出 一 系列 能 够 表征 文档 主体 内 
容 的 特征 集合 。 这 一 步骤 往往 有 其 内 在 要 求 ， 即 尽 可 能 保留 文档 重要 信 
恩 ， 抛 弃 无 关 紧 要 的 信息 。 之 所 以 要 抛弃 挥 部 分 信息 ， 主 要 是 从 计算 速 
度 的 角度 考虑 的 ， 一 般 来 说 ， 抛 弃 的 信息 越 多 ， 计 算 速 度 会 越 快 ， 但 是 
如 果 抛 弃 得 过 多 ， 在 此 步骤 可 能 会 丢失 重要 信息 ， 所 以 不 同 的 算法 在 此 
ee 





图 10-3 ”通用 的 网 页 去 重 算法 流程 框架 


在 将 文档 转换 为 特征 集合 后 ， 很 多 算法 就 可 以 直接 进入 查找 相似 文 
档 的 阶段 ， 但 是 对 于 搜索 引擎 来 说 ， 所 要 处 理 的 网 页 数量 以 亿 计 ， 算 法 
的 计算 速度 至 关 重 要 ， 人 否则 算法 可 能 看 上 去 很 美 ， 但 是 无 实用 效果 。 为 
了 能 够 进一步 加 快 计 算 速 度 ， 很 多 高 效 实用 的 算法 会 在 特征 集合 的 基础 
上 ， 对 信息 进一步 压缩 ， 采 用 信息 指纹 相关 算法 ， 将 特征 集合 压缩 为 新 
的 数据 集合 ， 其 包含 的 元 素数 量 远 远 小 于 特征 集合 数量 ， 有 时 候 甚 至 只 
有 唯一 的 一 个 文档 指纹 。 在 此 处 与 在 特征 抽取 阶段 一 样 ， 有 可 能 会 有 信 
上 丢 失 ， 所 以 也 需 权 衔 压 缩 率 和 准确 性 的 问题 。 

当 把 文档 压缩 为 文档 指纹 后 ， 即 可 开始 通过 相似 性 计算 来 判断 哪些 
网 页 是 近似 重复 页 面 。 对 于 去 重 来 说 ， 最 常用 的 文本 相似 性 计算 是 
Jaccard 相 似 度 ， 大 部 分 去 重 算法 都 是 以 此 作为 评估 两 个 文档 是 否 近似 的 
标准 。 另 外 ， 由 于 数据 量 太 大 ， 在 计算 相似 性 的 时 候 ， 如 果 一 一 进行 比 
较 显 然 效 率 很 低 ， 在 此 处 不 同 算法 往往 会 采用 各 种 策略 来 加 快 相似 性 匹 
配 过 程 ， 比 较 常 见 的 做 法 是 对 文档 集合 进行 分 组 ， 对 于 某 个 文档 ， 找 到 
比较 相似 的 分 组 ， 和 分 组 内 的 网 页 进行 一 一 比较 ， 这 样 可 以 大 大 减少 比 
较 次 数 ， 有 效 提升 系统 效率 。 

上 述 的 通用 去 重 算 法 框架 看 上 去 比较 抽象 ， 读 者 在 阅读 完 后 续 介绍 
的 具体 算法 后 再 次 返回 本 节 对 照 ， 可 以 获得 更 深刻 的 理解 ， 对 此 框架 的 
深入 理解 有 助 于 开发 者 研发 新 的 高 效 去 重 算法 ， 应 该 意识 到 : 之 所 以 框 
架 如 此 ， 是 有 其 深刻 原因 的 。 


























10.2 Shingling 算 法 


Shingling 算 法 可 以 被 视 为 由 两 个 大 的 步骤 组 成 : 第 1 步 从 文档 中 抽 
取 能 够 代表 文档 内 容 的 特征 ， 第 2 步 则 根据 两 个 文档 对 应 特征 集合 的 重 
登 程 度 来 判断 是 否 近 似 重 复 。 

之 所 以 被 称 为 Shingling 算 法 ， 是 因为 该 方法 以 Shingles 作 为 文档 的 
特征 。 所 谓 Shingles， 即 将 文档 中 出 现 的 连续 单词 序列 作为 一 个 整体 ， 
为 了 方便 后 续 处 理 ， 对 这 个 单词 片段 进行 哈 希 计算 ， 形 成 一 个 数值 ， 
个 单词 片段 对 应 的 哈 希 值 称 为 一 个 Shingle， 而 文档 的 特征 集合 就 是 由 多 
个 Shingle 构 成 的 。 

图 10-4 是 Shingling 算 法 如 何 将 一 篇 文本 文档 转换 为 特征 集合 的 示意 
图 ， 可 以 假想 有 一 个 固定 大 小 的 移动 窗口 从 文档 第 1 个 单词 (单字 ) 开 
始 依次 移动 ， 每 次 癌 后 移动 一 个 单词 〈 单 字 ) ， 直 到 文本 末尾 。 图 10-4 
中 是 以 3 个 汉字 作为 移动 窗口 的 大 小 ， 所 以 第 1 个 长 度 为 3 的 汉字 串 是 “新 
浪 发 ”， 对 这 个 汉字 串 进 行 哈 希 计 算 〈Shingling 算 法 在 此 处 采用 Rabin 
FingerPrint 算 法 ) ， 即 得 到 一 个 shingle， 然 后 窗口 向 后 移动 一 个 汉字 ， 
形成 第 2 个 汉字 串 “ 浪 发 布 "， 同 样 对 汉字 串 进行 哈 希 计算 ， 得 到 第 2 个 
shingle， 依 此 类 推 ， 窗 口 不 断后 移 ， 直 到 末尾 的 汉字 上 串 “ 户 破 亿 ”为 止 ， 
这 样 所 有 的 shingle 组 成 的 集合 就 是 文档 对 应 的 特征 集合 。 
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图 10-4 用 Shingling 算 法 将 一 篇 文本 文档 转换 为 特征 集合 的 示意 图 


如 果 每 个 文档 都 通过 如 上 方式 转换 为 特征 集合 ， 如 何 计 算 两 个 文档 
是 否 是 近似 重复 网 页 ?Shingling 算 法 考察 两 个 特征 集合 的 重 登 程度 ， 重 
登 程 度 越 高 ， 则 越 可 能 是 近似 重复 网 页 。 有 具体 而 言 ， 采 用 了 Jaccard 相 似 
性 来 计算 这 个 重合 程度 。 

图 10-5 是 Jaccard 相 似 性 计算 的 示意 图 ， 这 是 一 种 计算 集合 相似 性 的 
经 典 方法 ， 对 于 两 个 集合 A 和 B 来 说 ， 两 者 的 重 登 部 分 由 C 来 表示 。 图 中 
集合 A 包 含 4 个 元 素 ， 集 合 B 包 含 5 个 元 素 ， 而 两 者 相同 的 元 系 有 2 个 ， 即 
集合 C 的 大 小 为 2。Jaccard 计 算 两 个 集合 相同 的 元 素 占 总 元 素 个 数 的 比 
例 ， 因 为 图 10-5 中 集合 A 和 B 共 有 7 个 不 同 元 素 ， 相 同 元 素 个 数 为 2， 所 
以 集合 A 和 集合 B 的 相似 性 即 为 2/7。 











Jaccard(A,B)= = 一 
|A+B| 
图 10-5 “文档 相似 性 计算 


Shingling 算 法 通过 以 上 两 个 步骤 即 可 计算 哪些 网 页 是 近似 重复 网 








页 ， 但 是 这 种 方法 在 实际 运行 时 ， 计 算 效 率 并 不 高 ， 如 果 网 页 数量 大 ， 
运行 时 间 会 过 长 ， 并 不 实用 。 原 因 在 于 把 一 个 文档 转换 为 以 shingles 表 
示 的 特征 集合 形式 后 ， 这 个 文档 对 应 的 特征 集合 仍然 太 大 。 同 时 对 于 不 
同 长 度 的 文档 来 说 ， 转 换 后 的 特征 集合 大 小 各 异 。 而 这 两 点 对 于 高 效 计 
算 来 说 都 是 不 利 因素 。 为 了 加 快 计算 速度 ， 能 否 将 文档 的 特征 集合 变 为 
固定 长 度 ， 同 时 使 得 这 个 长 度 远 远 小 于 原始 的 特征 集合 ? 

Fetterly 等 人 提出 了 针对 原始 Shingling 算 法 改进 的 算法 ， 其 基本 思想 
即 如 上 所 述 ， 对 于 不 同 的 网 页 ， 将 其 转换 为 固定 大 小 的 特征 集合 ， 而 且 
这 个 特征 集合 的 大 小 要 远 小 于 原始 Shingling 转 换 后 特征 集合 的 大 小 ， 以 











此 手段 来 大 大 提升 运算 效率 。 

图 10-6 即 为 这 个 改进 思路 的 示意 图 。 前 面 若干 计算 过 程 与 原始 
Shingling 算 法 是 一 致 的 ， 即 首先 将 一 个 文档 转换 为 由 shingles 构 成 的 特征 
集合 。 为 了 能 够 将 文档 特征 映射 为 固定 大 小 ， 引 入 m 个 不 同 的 哈 希 函 
数 ， 形 成 哈 希 函数 禾 。 对 于 茶 个 特定 的 哈 希 函数 F， 对 每 个 shingle 都 计 
算出 一 个 对 应 的 哈 希 数值 ， 取 其 中 最 小 的 那个 哈 希 数值 作为 代表 。 这 样 
m 个 哈 希 函数 就 获得 了 m 个 哈 希 数值 ， 如 此 就 把 文档 的 特征 集合 转换 为 
ne a Ang ed ee 
通过 如 上 方式 ， 即 可 把 文档 对 应 的 特征 集合 映射 为 一 个 固定 大 小 ， 

长 度 比 原始 方法 小 很 多 的 数值 向 量 ， 以 加 快 后 乡 AVL SLI 





FA ; ee = = N 
F1(FingerPrint) 


数值 1 
数值 2 
数值 3 


数值 2 





110-6 ”改进 的 Shingling 算 法 思路 示意 图 


10-6 FA Fr EDA al el, Wa Ar eR ACER EL PANG ir ER AL, 
而 实际 使 用 的 时 候 往往 会 使 用 84 个 不 同 的 哈 希 函数 ， 即 将 一 个 文档 映射 
成 为 由 84 个 数值 构成 的 数值 问 量 。 为 了 进一步 加 快 计 算 速 度 ， 可 以 将 84 
个 数值 进一步 压缩 : 以 14 个 连续 数值 作为 一 块 ， 将 84 个 数值 分 为 6 块 ， 
利用 另外 一 个 哈 希 函数 对 每 一 块 的 14 个 数值 进行 哈 希 计算 ， 进 一 步 将 文 
档 特征 转换 为 6 个 哈 希 数值 ， 如 果 任 意 两 个 文 要 有 两 个 以 上 的 哈 希 数值 
是 相同 的 ， 即 可 认为 是 近似 重复 文档 ， 这 个 技巧 被 称 为 SuperShingle。 

至 于 计算 文档 集合 的 Jaccard 相 似 性 ， 一 般 会 采用 Union-Find 算 法 。 
Union-Find 算 法 是 经 典 的 计算 等 价 类 的 高 效 算 法 ， 参 考 文献 众多 ， 此 处 
即 不 歼 述 其 细节 ， 重 点 仍然 放 在 去 重 算法 本 喘 。 

经 过 如 上 诸 般 优化 措施 ， 改 进 的 Shingling 算 法 计算 效率 已 非常 高 。 
实验 表明 ， 计 算 一 亿 五 干 万 个 网 页 ， 该 方法 可 以 在 3 小 时 内 计算 完毕 ， 
而 原始 的 Shingling 算 法 即使 是 处 理 三 千 万 网 页 ， 也 需 10 天 才 可 完成 ， 应 
该 说 速度 的 提升 是 非常 显著 的 。 











10.3”I-Match 算 法 


最 初 的 I-Match 算 法 是 由 Abdur 等 人 于 2002 年 提出 的 ， 其 基本 流程 也 
遵循 本 章 第 一 节 所 述 的 通用 去 重 算法 框架 。 

图 10-7 是 LIMatch 算 法 流程 的 示意 图 。 对 于 该 算法 来 说 ， 非 常 重要 的 
一 个 步骤 是 事先 计算 出 一 个 全 局 的 特征 词典 ， 有 具体 到 L-Match 算 法 来 
说 ， 则 是 根据 大 规模 语 料 进行 统计 ， 对 语 料 中 出 现 的 所 有 单词 ， 按 照 单 
词 的 IDF 值 由 高 到 低 进 行 排序 ， 之 后 去 除 掉 一 定 比 例 IDF 得 分 过 高 及 得 
分 过 低 的 单词 ， 保 留 得 分 处 于 中 间 段 的 单词 作为 特征 词典 ， 实 验 表 明 以 
这 些 单 词 作 为 特征 ， 其 去 重 效果 较 好 。 

















10-7 I-Match 算 法 流程 的 示意 图 


获得 全 局 的 特征 词典 后 ， 对 于 需要 去 重 的 网 页 ， 扫 描 一 遍 即 可 获得 
在 该 页 面 中 出 现 过 的 所 有 单词 ， 对 于 这 些 单词 ， 用 特征 词典 进行 过 滤 : 
保留 在 特征 词典 中 出 现 过 的 单词 ， 以 此 作为 表达 网 页 内 容 的 特征 ; 没有 
在 特征 词典 中 出 现 过 的 单词 则 直接 抛弃 。 通 过 这 种 方式 ， 抽 取出 文档 对 
应 的 特征 ， 之 后 利用 哈 希 函数 I-Match 算 法 采取 SHA1 作 为 哈 希 函数 ) 
对 文档 的 所 有 特征 词汇 整体 进行 喻 希 计算 ， 得 到 一 个 唯一 的 数值 ， 以 此 
哈 希 数值 作为 该 网 页 的 信息 指纹 。 

对 网 页 集合 里 所 有 网 页 都 计算 出 相应 的 信息 指纹 后 ， 如 何 判 断 两 个 
网 页 是 否 是 近似 重复 网 页 ? I-Match 算 法 于 此 很 直观 ， 可 以 直接 比较 两 
个 网 页 对 应 的 信息 指纹 ， 如 果 两 者 相同 ， 则 被 认为 是 近似 重复 网 页 。 

回顾 上 节 上 所 讲 Shingling 算 法 的 特征 抽取 过 程 ， 从 上 述 对 应 的 LIMatch 
算法 的 特征 抽取 过 程 可 以 看 出 ，I-Match 算 法 抽取 出 的 文档 特征 是 一 个 
个 独立 的 单词 ， 单 词 之 间 的 顺序 没有 被 考虑 进来 ， 所 以 L-Match 算 法 对 
于 文档 之 间 单 词 顺 序 的 变化 并 不 敏感 ， 如 果 两 个 文档 所 包含 的 单词 相 
同 ， 但 是 单词 顺序 进行 了 变换 ，I-Match 算 法 一 定 会 将 其 算 做 重复 内 
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容 。 














I-Match 算 法 的 优点 在 于 其 效率 很 高 ， 因 为 每 个 文档 被 映射 为 单一 
的 哈 希 值 ， 以 单一 数值 作为 文档 的 表征 ， 必 然 在 计算 速度 上 优 于 多 值 表 
征 ， 因 为 可 以 避免 复杂 的 集合 运算 。 

但 是 I-Match 算 法 也 包含 不 少 问题 ， 首 先 ， 对 于 短文 本 来 说 ， 很 容 
易 出 现 误 判 ， 也 就 是 说 两 个 文档 本 来 不 是 近似 重复 网 页 ， 但 是 I-Match 
算法 容易 将 两 者 判断 为 重复 内 容 。 之 所 以 会 如 此 ， 原 因 就 在 上 文 提 到 的 
特征 词典 ， 假 设 两 个 短文 本 内 容 并 不 相似 ， 但 是 经 过 特征 词典 过 滤 后 ， 
只 能 保留 很 少 几 个 单词 作为 文档 的 特征 ， 而 如 果 这 几 个 单词 是 相同 的 ， 
那么 自然 会 将 这 两 个 文档 误 判 为 近似 重复 网 页 。 其 根本 原因 在 于 特征 词 
ol 

另外 一 个 更 加 突出 的 问题 是 ，I-Match 算 法 的 稳定 性 不 好 。 所 谓 稳 
定性 不 好 ， 指 的 是 对 于 某 个 文档 A 做 了 一 些 较 小 的 内 容 变 动 ， 形 成 新 文 
档 B， 本 来 应 该 将 两 者 看 做 近似 重复 文档 ， 但 是 I-Match 算 法 很 可 能 无 法 
将 其 计算 为 我 们 希望 的 结果 ， 即 LMatch 算 法 对 于 增删 单词 这 种 变化 比 
较 敏感 ， 这 是 由 于 I-Match 算 法 所 采用 的 特征 词典 机 制 和 SHA1 哈 希 算 法 
共同 导致 的 。 

我 们 可 以 考虑 如 下 的 极端 情形 : 对 于 某 个 文档 A， 我 们 向 其 中 加 入 
一 个 新 的 单词 w〈 即 w 没 有 在 A 中 出 现 过 ) ， 形 成 文档 B。 通 过 I-Match 算 
法 的 特征 词典 对 两 个 文档 进行 特征 过 滤 ， 因 为 两 者 的 差别 只 有 这 个 新 加 
入 的 单词 w， 所 以 如 果 单 词 w 不 在 特征 词典 中 ， 那 么 文档 A 和 文档 B 的 对 
应 特征 集合 相同 ， 所 以 哈 希 后 的 信息 指纹 也 一 定 相 同 ，ILMatch 会 认为 
两 个 文档 是 近似 重复 文档 ， 这 是 我 们 想 要 的 结果 ; 但 是 ， 如 果 单 词 w 出 
现在 特征 词典 中 ， 那 么 文档 B 的 特征 集合 会 比 文 档 A 多 一 个 特征 ， 即 单 
词 w， 而 SHA1 哈 希 算法 对 于 这 种 差异 很 敏感 ， 会 将 两 个 文档 映射 成 两 
个 不 同 的 信息 指纹 ， 即 出 现 了 稳定 性 不 佳 的 问题 。 很 明显 ， 这 个 问题 是 
由 特征 词典 和 SHA1 哈 希 算法 共同 决定 的 ， 可 以 看 做 是 I-Match 算 法 为 了 
计算 效率 所 付出 的 代价 。 

为 了 解决 原始 I-Match 算 法 存在 的 稳定 性 不 佳 问 题 ，Kolcz 等 人 提出 
了 改进 算法 (参考 图 10-8) 。 其 基本 出 发 点 也 很 直观 : 原始 I-Match 算 法 
对 于 文档 内 容 改 变 过 于 敏感 ， 原 因 在 于 其 严重 依赖 于 特征 词典 的 选择 ， 
为 了 减少 这 种 依赖 性 ， 可 以 考虑 同时 采用 多 个 特征 词典 ， 而 每 个 特征 词 
典 大 体 相 近 ， 同 时 又 必须 有 微小 的 差异 。 
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图 10-8 ”对 IMatch 算 法 的 改进 





对 于 某 个 需要 判别 是 否 重复 的 文档 A， 对 应 每 个 特征 词典 ， 生 成 多 
个 信息 指纹 。 如 果 问 文档 A 增加 新 的 单词 w 形 成 文档 B， 因 为 存在 多 个 大 
致 相同 但 有 微小 差异 的 特征 词典 ， 所 以 有 很 大 可 能 某 个 特征 词典 不 包含 
这 个 单词 ， 所 以 通过 这 个 特征 词典 算出 的 文档 B 的 信息 指纹 和 文档 A 是 
相同 的 。 在 判断 A 和 B 两 个 文档 是 否 重复 时 ， 同 时 考虑 多 个 信息 指纹 的 
情况 ， 只 要 两 个 文档 对 应 的 众多 信息 指纹 中 有 任意 一 个 是 相同 的 ， 则 可 
以 判定 两 者 是 重复 文档 。 这 样 束 解 决 了 I-Match 算 法 对 增删 单词 过 于 敏 
感 的 问题 。 

那么 如 何 形成 多 个 “大 至 相同 又 有 微小 差异 ”的 特征 词典 呢 ?Kolcz 
是 如 此 解决 这 个 问题 的 ， 类似 于 原始 I-Match 算 法 ， 形 成 一 个 特征 词 
典 ， 为 了 和 其 他 词典 区 分 ， 可 以 称 为 主 特征 词典 ; 然后 根据 主 特征 词典 
衍生 出 其 他 知 干 个 辅助 特征 词典 ， 为 了 能 够 达到 词典 内 容 大 致 相同 ， 又 
能 有 微小 差异 ， 可 以 考虑 从 主 特征 词典 中 随机 抽取 很 小 比例 的 词典 项 ， 
之 后 将 其 从 主 特 征 词典 中 抛弃 ， 剩 下 的 词典 项 构成 一 个 辅助 特征 词典 ， 
如 此 重复 硅 干 次 束 可 以 形成 耕 干 个 辅助 特征 词典 ， 这 些 辅 助 特征 词典 和 
主 特征 词典 一 起 作为 算法 采用 的 多 个 特征 词典 。 通 过 如 此 做 法 ， 即 可 保 
E E 0 














图 10-8 中 演示 了 这 个 过 程 ， 图 中 包含 两 个 从 主 特征 词典 衍生 的 辅助 
特征 词典 ， 其 中 一 个 抛弃 了 主 特征 词典 的 特征 5 和 特征 6， 另 外 一 个 则 抛 


弃 了 特征 3 和 特征 4， 如 此 就 形成 了 3 个 特征 词典 。 对 于 某 个 文档 ， 根 据 3 
个 特征 词典 分 别 形成 3 个 信息 指纹 ， 如 有 果 两 个 文档 有 任意 一 个 信息 指纹 
相同 ， 则 可 以 判定 为 重复 文档 。 

原始 的 I-Match 算 法 将 文档 映射 成 唯一 的 信息 指纹 ， 虽 然 增 加 了 计 
算 效 率 ， 但 是 明显 存在 信息 表达 不 足 的 问题 ， 改 进 的 LIMatch 算 法 本 质 
上 是 将 一 个 文档 映射 成 多 个 信息 指纹 ， 可 以 认为 是 将 文档 里 更 多 的 信息 
进行 了 编码 ， 这 种 做 法 与 前 述 章节 的 SuperShingle 的 做 法 类 似 ， 
SuperShingle 也 是 将 义 档 压缩 成 多 个 信息 站 纹 ， 区 别 在 于 : SuperShingle 
是 将 信息 由 多 到 少 进 行进 一 步 压 缩 ， 而 改进 的 I-Match 算 法 是 从 唯一 的 
信息 指纹 将 信息 由 少 到 多 进行 扩展 。 虽 是 殊 途 ， 毕 葛 同 归 。 

















10.4 SimHash y% 














经 过 实践 证 明 ，SimHash 算 法 可 能 是 目前 最 优秀 的 去 重 算法 之 一 ， 
Google 内 部 应 该 采用 以 SimHash 算 法 为 基础 的 改进 去 重 方法 来 对 网 页 进 
行 预 处 理 ， 而 且 已 对 此 算法 申请 了 专利 保护 。 

严格 来 说 ，SimHash 算 法 可 以 看 做 是 局 部 敏感 哈 希 框架 
Sensitive Hashing Schema) 的 一 个 实现 特例 。 经 过 理论 分 析 ， 本 草 前 

章节 讲 到 的 ' 改进 的 Shingling 算 法 ” 引入 多 个 哈 希 函数 ， 究 其 本 质 ， 
局 部 敏感 哈 希 框架 的 一 个 具体 实现 方式 而 已 。 

局 部 敏感 哈 希 框架 之 所 以 在 海量 文本 处 理 方面 大 行 其 道 ， 源 于 其 有 
趣 的 特性 : 两 个 文档 内 容 越 相似 ， 则 其 对 应 的 两 个 哈 希 值 也 越 接 近 ， 所 
以 可 以 将 文本 内 容 相 似 性 问题 转换 为 哈 希 值 的 相近 性 问题 。 而 利用 哈 希 
值 ， 很 明显 比 文 本 计算 速度 快 得 多 ， 同 时 用 哈 希 值 表示 文档 ， 也 大 大 市 
省 了 存储 空间 。 这 与 一 般 哈 希 函 数 的 使 用 目的 截然 相反 ， 一 般 哈 希 函 数 
为 了 减少 冲突 ， 尽 可 能 均匀 地 将 哈 希 值 分 布 到 不 同 数值 空间 。 

SimHash 算 法 也 可 以 划分 为 两 个 步骤 : 文档 指纹 计算 和 相似 文档 碍 
找 。 文 档 指纹 计算 的 目 的 是 将 二 条 文本 文档 转换 为 固定 大 小 的 二 进 制 数 
值 ， 以 此 作为 文档 的 信息 指纹 ， 相 似 性 查找 阶段 则 根据 信息 指纹 来 找 出 
哪些 文档 是 近似 重复 的 。 


10.4.1 文档 指纹 计算 


图 10-9 是 SimHash 算 法 第 1 阶段 的 具体 流程 图 ， 通 过 这 个 步骤 将 文档 
转换 为 二 进 制 表 示 的 文档 指纹 。 其 内 容 转 换 过 程 又 可 分 为 如 下 几 个 步 
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图 10-9 ”SimHash 算 法 第 1 阶段 的 具体 流程 图 
首先 ， 从 文档 内 容 中 抽取 一 批 能 表征 文档 的 特征 ， 至 于 具体 实现 ， 
则 可 以 采取 不 同 的 抽取 方法 ， 经 过 此 步骤 ， 获 得 文档 的 特征 及 其 权 值 
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之 后 ， 利 用 一 个 哈 希 函 数 将 每 个 特征 映射 成 固定 长 度 的 二 进 制 表 
示 ， 如 图 10-9 所 示 为 长 度 等 于 6 比特 的 二 进 制 向 量 ， 这 样 每 个 特征 就 转 
换 为 6 比特 二 进 制 向 量 及 其 权 值 。 

接 下 来 ， 利 用 权 值 改写 特征 的 二 进 制 向 量 ， 将 权重 融入 向 量 中 ， 形 
成 一 个 实数 向 量 。 假 设 某 个 特征 的 权 值 是 w， 则 对 二 进 制 向 量 做 如 下 改 
写 : 如 果 二 进 制 的 某 个 比特 位 是 数值 1， 则 实数 向 量 中 对 应 位 置 改写 为 
数值 w; 如 果 比 特 位 数值 为 0， 则 实数 向 量 中 对 应 位 置 改写 为 数值 -w， 
aoe WW EAU, oR de ail] Pa) ae CA LORIE A BEY 
实数 向 量 。 

当 每 个 特征 都 进行 了 上 述 改 写 后 ， 对 所 有 特征 的 实数 向 量 累 加 获得 
一 个 代表 文档 整体 的 实数 向 量 。 累 加 规则 也 很 简单 ， 就 是 将 对 应 位 置 的 
数值 累加 即 可 。 

最 后 一 步 ， 再 次 将 实数 向 量 转换 为 二 进 制 向 量 ， 转 换 规 则 如 下 : 如 
果 对 应 位 置 的 数值 大 于 0， 则 设置 为 二 进 制 数字 1; 如 果 小 于 等 于 0， 则 























设置 为 二 进 制 数字 0。 在 如 图 10-9 所 示 的 实例 中 ，6 个 数值 再 次 转换 为 长 
度 为 6 比特 的 二 进 制 数值 110001。 如 此 ， 就 得 到 了 文档 的 信息 指纹 ， 即 
最 终 的 二 进 制 数值 串 。 


10.4.2 ”相似 文档 查找 


对 每 个 文档 都 按照 上 述 规 则 进行 映射 ， 将 文档 转换 为 固定 大 小 的 二 
进 制 数值 ， 在 实际 计算 中 ， 往 往 会 将 长 度 设 定 为 64， 即 每 个 文档 转换 为 
64 比 特 的 二 进 制 数值 。 

对 于 两 个 文档 A 和 B， 其 内 容 相 似 性 可 以 通过 比较 二 进 制 数值 的 差 
异 来 体现 ， 内 容 越 相 似 ， 则 二 进 制 数值 对 应 位 置 的 相同 的 0 或 者 1 越 多 ， 
两 个 二 进 制 数 值 不 同 的 二 进 制 位 数 被 称 为 “ 海 明 距 离 ”。 比 如 假设 文档 A 
的 二 进 制 表示 为 1000001， 而 文档 B 的 二 进 制 表示 为 1100001， 则 只 有 第 2 
个 位 置 的 二 进 制 数字 不 同 ， 所 以 其 海 明 距 离 为 1。 不 同 的 二 进 制 数字 个 
数 越 多 ， 即 海 明 距 离 越 大 ， 则 文档 越 不 相似 ， 一 般 对 于 64 位 二 进 制 数 来 
说 ， 判 断 两 个 文档 是 否 近 似 重复 的 标准 是 : 海 明 距 离 是 否 小 于 等 于 3， 
We 














海量 的 网 页 经 过 上 述 步 骤 ， 转 换 为 海量 的 二 进 制 数值 ， 此 时 如 宁 新 
抓 取 到 一 个 网 页 ， 如 何 找 出 近似 重复 的 内 容 ? 

一 个 很 容易 想到 的 方式 是 一 一 匹配 〈 图 10-10) ， 将 新 网 页 Q 转 换 为 
64 比 特 的 二 进 制 数值 ， 之 后 和 索引 网 页 一 一 比较 ， 如 果 两 者 的 海 明 距 离 
小 于 等 于 3， 则 可 以 认为 是 近似 重复 网 页 。 这 种 方法 虽然 直观 ， 但 是 计 
算 量 过 大 ， 所 以 在 以 亿 计 的 网 页 中 ， 实 际 是 不 太 可 行 的 。 
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图 10-10 ”指纹 一 一 比较 法 


为 了 加 快 比较 速度 ，SimHash 和 采取 了 变通 方法 ， 其 本 质 思 想 是 将 索 
引 网 页 根据 文档 指纹 进行 分 组 ， 新 网 页 只 在 部 分 分 组 内 进行 匹配 ， 以 减 
少 新 文档 和 索引 网 页 的 比较 次 数 。 

图 10-11 展 示 了 这 种 思想 的 具体 实现 方法 ， 首 先 对 于 64 位 长 度 的 二 
进 制 数值 进行 分 基 ， 每 16 位 作为 一 块 ， 这 样 每 个 二 进 制 数 值 被 划分 为 4 
块 ， 可 分 别 以 A、B、C、D 块 来 俞 名 。 对 于 海量 的 索引 网 页 ， 依 据 分 块 
进行 聚 类 ， 比 如 对 于 A 块 来 说 ， 根 据 其 A 块 内 16 位 二 进 制 聚 类 ， 如 有 果 16 
位 二 进 制 都 相同 ， 则 这 些 网 页 被 看 做 是 一 个 聚 类 ， 即 一 组 ， 这 样 根据 A 
块 就 可 以 将 所 有 索引 网 页 分 成 在 干 组 数据 。 对 于 B、C 和 PD 来 说 也 是 如 
此 ， 即 相同 的 16 位 二 进 制 网 页 作为 一 个 分 组 。 如 此 ， 束 将 所 有 索 引 网 页 
ea er a 
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图 10-11 分 组 分 块 匹 配 法 


对 于 新 抓 取 的 网 页 ， 同 样 将 64 比 特 二 进 制 数据 分 为 4 块 : Q1、Q2、 
Q3、Q4。 在 索引 网 页 的 分 组 中 ， 找 到 对 应 A 块 16 位 和 Q1 完 全 相同 的 那 
个 分 组 ， 之 后 与 分 组 内 的 网 页 一 一 比较 来 查找 哪些 网 页 是 近似 重复 的 。 
对 于 Q2、Q3 和 Q4 也 做 同样 处 理 。 这 样 就 可 以 用 较 少 的 代价 ， 找 到 全 部 


索引 网 页 中 和 新 抓 取 网 页 近似 重复 的 内 容 。 
10.5 ”SpotSig 算 法 


SpotSig 是 个 很 有 趣 的 算法 ， 最 初 算法 设计 者 是 为 了 解决 新 闻 斥 容 的 
近似 重复 判断 而 提出 这 个 方法 的 。 

这 个 算法 基于 如 下 观察 : 很 多 新 闻 的 主体 内 容 大 致 相同 ， 但 是 页 面 
布局 往往 差异 很 大 ， 比 如 有 很 多 导航 链接 或 者 广告 链接 及 其 文字 。 那 
么 ， 新 闻 主 体 和 页 面 布局 区 域 在 使 用 文字 上 有 何 种 明显 差异 呢 ? 一 个 很 
明显 的 差异 是 : 停 用 词 在 两 者 中 的 分 布 是 不 一 样 的 ， 新 闻 正 文中 停 用 词 
一 般 是 比较 均匀 而 频繁 出 现 的 ， 但 是 在 其 他 区 域 中 却 很 少 出 现 停 用 词 。 
SpotSig 提 出 者 觉得 这 个 差异 可 以 被 用 来 识别 近似 重复 新 闻 。 

SpotSig 算 法 整体 框架 也 符合 本 章 第 1 小 节 所 述 ， 但 是 在 具体 实现 方 
法 上 有 独特 之 处 。 


10.5.1 ”特征 抽取 
观察 到 上 述 的 新 闻 正 文 和 其 他 区 域 中 停 用 词 分 布 的 差异 ，SpotSig 算 


法 考虑 用 俘 用 词 相关 的 词语 片段 作为 文档 的 特征 。 图 10-12 给 出 了 一 个 
特征 提取 的 实例 。 
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图 10-12 ”特征 提取 的 实例 
首先 确定 要 使 用 的 部 分 停 用 词 ， 并 以 这 些 停 用 词 在 网 页 中 出 现 的 位 





置 作为 锚 点 ， 在 图 10-12 的 例子 中 ， 选 取 单 词 a、an、the、is， 以 这 4 个 停 
用 词 作 为 锚 点 。 从 锚 点 回 后 顺序 扫描 ， 取 固定 个 数 的 单词 作为 特征 构成 
部 分 ， 比 如 例子 中 第 1 次 出 现 的 a， 后 面 紧 跟着 单词 序列 “rally to kick”, 
假设 锚 点 后 跟 单词 个 数 设 定 为 2， 即 取 单 词 rally 和 kick 作为 这 个 锚 点 的 特 
征 组 成 部 分 ， 将 售 用 词 to 过 滤 抒 ， 这 样 arally:kick 就 组 成 了 第 1 个 特征 。 
按照 同样 的 方式 可 以 获得 文档 所 有 的 特征 ， 组 成 特征 集合 ， 以 此 来 表征 
这 个 文档 。 

文档 特征 是 根据 停 用 词 来 选取 的 ， 如 果 两 个 网 页 内 容 相 同 ， 只 是 布 
局 结构 不 同 ， 因 为 页 面 布局 文字 很 少 包含 停 用 词 ， 所 以 从 页 面 布局 内 几 
乎 不 会 抽出 特征 。 也 就 是 说 ， 页 面 布 局 对 于 判断 后 续 内 容 近似 文档 基本 
没有 负面 影响 ， 这 也 是 SpotSig 算 法 一 个 显著 的 特色 。 

另外 一 个 与 前 述 去 重 算法 的 不 同 之 处 在 于 : SpotSig 算 法 直接 以 文本 
串 作 为 特征 ， 而 正如 前 述 章节 所 讲 ， 其 他 算法 大 都 会 将 文本 特征 转换 为 
数字 特征 ， 而 SpoSig 并 未 如 此 做 。 


10.5.2 ”相似 文档 查找 


获得 文档 的 特征 集合 后 ， 与 Shingling 算 法 类 似 ，SpotSig 采 用 Jaccard 
来 计算 文档 之 间 的 相似 性 。 考 虑 到 计算 量 过 大 ，SpotSig 采 取 了 两 个 技术 
手段 来 加 速 查 找 过 程 : 文档 分 组 和 倒 排 索引 。 

如 果 对 文档 分 组 ， 给 定 一 个 竺 判 网 页 ， 则 无 顷 和 全 部 索引 网 页 一 一 
比较 ， 只 需要 找到 合适 的 分 组 ， 与 分 组 内 网 页 比较 即 可 ， 这 样 确实 可 以 
极 大 地 提升 系统 速度 。 上 节 所 述 SimHash 也 采取 了 类 似 分 组 的 思路 来 加 
快 计 算 速度 。 

但 是 如 何 对 文档 分 组 ? 其 依据 是 什么 呢 ? SpotSig 算 法 对 网 页 集合 进 
行 分 组 是 基于 如 下 观察 : 因为 采用 的 是 Jaccard 公 式 来 计算 两 个 文档 的 相 
似 性 ， 而 且 我 们 只 需要 找到 文档 特征 重 登 度 足 够 高 的 相似 文档 即 可 ， 那 
么 对 于 相似 性 得 分 可 能 很 低 的 文档 ， 则 尽 可 能 不 去 匹配 。 仔 细 考 察 
Jaccard 公 式 ， 可 以 得 出 结论 ， 如 果 两 个 文档 A 和 B， 其 长 度 相差 太 大 ， 
利用 Jaccard 公 式 计 算出 的 两 者 的 相似 性 一 定 很 低 ， 即 两 者 不 可 能 是 近似 
重复 文档 。 所 以 对 于 某 个 待 判 文 档 A 来 说 ,与 其 相似 的 文档 ， 长 度 一 定 
与 文档 A 的 长 度 相 差 不 远 。 既 然 如 此 ， 可 以 在 文档 转换 为 特征 集合 后 ， 
根据 特征 集合 的 大 小 对 文档 集合 进行 分 组 ， 而 在 进行 相似 性 计算 时 ， 只 
在 合适 的 分 组 内 一 一 比较 ， 以 此 加 快 查 找 速 度 。 

为 了 进一步 加 快 匹 配 速度 ，SpotSig 算 法 对 于 每 个 分 组 内 的 网 页 ， 分 
别 建立 一 套 倒 排 索 引 ， 如 图 10-13 所 示 是 分 组 k 建 立 的 倒 排 索引 片段 。 对 
































于 每 个 特征 ， 建 立 倒 排列 表 ， 其 中 d 代 表 文 档 编号 ， 后 面 的 数字 代表 这 
个 特征 在 文档 d 出 现 的 次 数 ， 即 TF， 同 时 ， 倒 排列 表 项 根据 TF 值 由 高 到 
低 排 序 。 这 样 在 计算 Jaccard 相 似 度 的 时 候 ， 可 以 通过 动态 裁 前 的 方式 只 
匹配 分 组 内 的 部 分 网 页 即 可 ， 不 需要 对 分 组 内 任意 网 页 都 计算 Jaccard 相 
似 度 ， 通 过 此 种 手段 进一步 加 快 了 计算 速度 。 


von EE | 
dz:6 | d7:4 | ds:3 | d,:3 
图 10-13 分 组 k 建 立 的 倒 排 索引 片段 














一 个 典型 的 去 重 算法 由 特征 抽取 、 文 档 指纹 生成 和 相似 性 计算 3 
个 关键 环节 构成 。 
能 够 快速 处 理 海 量 数 据 是 搜索 引擎 对 去 重 算法 的 内 在 要 求 ， 去 
重 算法 设计 必须 兼顾 准确 性 和 运行 效率 ， 在 两 者 之 间 取 得 平衡 。 
4 种 典型 的 去 重 算法 : Shingling 算 法 、ILMatch 算 法 、SimHash 算 
法 、SpotSig 算 法 。 看 似 迎 异 ， 很 多 基本 思路 相近 。 
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第 11 章 ”搜索 引擎 缓存 机 制 


“一 切 有 为 法 ， 皆 如 梦幻 泡影 ， 如 露 亦 如 电 ， 应 作 如 是 观 ” 
Ə 《金刚 经 》 





te (Cache) 是 目前 所 有 搜索 引擎 都 会 采用 的 技术 。 所 谓 缓存 ， 
就 是 在 高 速 内 存 硬件 设备 内 开辟 一 块 数据 存储 区 ， 用 来 容纳 党 见 的 用 户 
查询 及 搜索 结果 (或 者 索引 数据 及 搜索 的 中 间 结果 ) ， 同 时 采取 一 定 的 
管理 策略 来 维护 存储 区 内 的 数据 。 当 搜索 引擎 接收 到 用 户 查 询 请 求 时 ， 
首先 在 缓存 系统 里 查找 ， 如 果 能 够 找到 则 直接 返回 搜索 结果 ， 否 则 采取 
正常 的 搜索 流程 来 返回 搜索 结果 。 

为 何 搜索 引擎 要 引入 缓 在 机 制 ? 一 则 使 用 缓存 系统 能 够 加 快 用 户 查 
淘 响 应 的 速度 ， 明 外 还 可 以 有 效 地 城 少 搜索 引 和 后台 计算 旺 ， 节 省 计算 
资源 。 

对 于 一 个 正常 的 搜索 流程 ， 比 如 用 户 输入 查询 请 求 “搜索 引擎 技 
术 ”， 搜 索引 擎 需要 分 别 将 存储 在 磁盘 上 的 两 个 单词 的 倒 排 索引 读 入 内 
存 ， 之 后 进行 解压 缩 ， 然 后 求 两 个 单词 对 应 倒 排列 表 的 交集 ， 找 到 所 有 
包含 两 个 单词 的 文档 集合 ， 根 据 排序 算法 来 对 每 个 文档 的 相关 性 进行 打 
分 ， 按 照相 关 度 输出 相关 度 最 高 的 搜索 结果 。 

以 上 这 个 流程 涉及 了 磁盘 读 / 写 、 内 存 运算 等 一 系列 操作 ， 相 对 比 
较 耗费 时 间 和 计算 资源 。 如 果 将 本 次 搜索 结果 存储 在 绥 存 中 ， 下 次 遇 到 
相同 的 查询 请 求 ， 则 可 以 直接 将 搜索 结果 返回 ， 不 需要 经 过 上 述 的 复杂 
流程 进行 计算 。 缓 存 一 般 用 最 快 的 内 存 设备 进行 存储 ， 所 以 响应 速度 非 
ee ee AANA iS 
资源 。 

以 上 搜索 加 速 行为 能 够 成 立 ， 其 实 隐 含 了 一 个 假设 ， 即 ， 相同 的 用 
户 查询 会 反复 出 现 。 只 有 这 个 假设 成 立 ， 才 能 够 利用 以 上 措施 来 加 快 搜 
索 速度 ， 但 是 问题 是 这 个 假设 成 立 吗 ? 

这 涉及 用 户 查询 分 布 本 身 具 有 的 特点 。 我 们 先 看 下 用 户 搜索 请 求生 
为 有 哪些 特点 。 目 前 有 很 多 研究 集中 在 分 析 用 户 搜索 行为 ， 通 过 对 搜索 
日 志 的 分 析 ， 可 以 得 出 如 下 结论 。 















































1. 至 少 63.5% 的 搜索 引擎 用 户 只 看 搜索 结果 第 1 页 的 内 容 〈 默 认 是 
排名 头 10 位 的 搜索 结果 ) ; 大 约 11.7% 的 搜索 引擎 用 户 会 翻 看 搜索 结 
第 2 页 内 容 ; 至 少 79% 的 搜索 引擎 用 户 只 碍 看 搜索 结果 前 3 页 的 内 容 。 

2. 用 户 发 出 的 查询 请 求 分 布 符合 首 Power-Law 规 则 ， 即 少数 查询 占 
了 查询 总 数 的 相当 比例 ， 而 大 多 数 查 询 出 现 次 数 非常 少 。 在 十 亿 规 模 的 
搜索 日 志 记 录 中 ，63.7%% 的 用 户 查 询 只 出 现 过 一 次 ， 而 热门 查询 占 搜 索 
请 求 总 数 的 比例 非常 高 ， 最 热门 的 25 个 用 户 搜 索 请 求 占 了 用 户 查 询 请 求 
总 数 的 1.2% 一 1.5%; 同时 ， 用 户 查 询 有 很 大 比例 的 重复 性 ， 大 约 有 
30% 一 40% 的 用 户 碍 询 是 重复 查询 。 

3. 用 户 查询 请 求 具备 时 间 局 部 性 ， 即 大 多 数 重 复 的 用 户 查询 会 在 
较 短 的 间隔 时 间 被 再 次 重复 访问 。 

通过 上 面 的 调查 结论 ， 可 以 看 出 在 一 定 的 时 间 间 隅 内 ， 发 送 到 搜索 
引擎 的 用 户 查 询 有 相当 比例 的 重复 性 ， 而 缓存 机 制 之 所 以 能 够 运用 在 搜 
索引 擎 里 来 加 快 系统 啊 应 速度 ， 与 这 一 点 是 密 不 可 分 的 。 


11.1 搜索 引擎 缓存 系统 架构 


图 11-1 是 一 个 完善 的 搜索 引擎 缓存 系统 架构 示意 网 ， 当 搜索 引擎 接 
收 到 用 户 查 询 的 时 候 ， 会 首先 在 缓存 系统 人 查找， 看 绥 存 内 是 任 包 含 用 户 
查询 的 搜索 结果 ， 如 果 发 现 缓存 已 经 存储 了 相同 查询 的 搜索 结果 ， 则 从 
绥 存 内 读 出 结果 展现 给 用 户 ; 如 采 绥 存 内 没有 找到 相同 的 用 户 碍 询 ， 则 
将 用 户 碍 询 按照 利 规 处 理 方式 交 由 搜索 引擎 返回 结果 ， 并 将 这 条 用 户 碍 
询 的 搜索 结果 及 中 间 数 据 根 据 一 定 策略 调 入 缓存 中 ， 这 样 下 次 过 到 同样 
的 碍 询 可 以 直接 在 缓存 中 该 取 ， 以 加 快 用 户 啊 应 速度 并 减少 搜索 引擎 系 
统 的 计算 负载 。 





















































图 11-1 一 个 完善 的 搜索 引擎 缓存 系统 架构 示意 图 
缓存 系统 包含 两 个 部 分 ， 即 缓存 存储 区 及 缓存 管理 策略 。 缓 存 存储 





区 是 高 速 内 存 中 的 一 种 数据 结构 ， 可 以 存放 某 个 查询 对 应 的 搜索 结果 ， 


也 可 以 存放 搜索 中 间 结 果 ， 比 如 一 个 查询 单词 的 倒 排 列表 。 
n 缓存 管理 策略 又 包含 两 个 子 系统 ， 即 缓存 淘汰 策略 和 绥 存 更 新 集 








之 所 以 需要 缓存 淘汰 策略 ， 古 因为 不 论 给 缓存 分 配 多 大 空间 ， 当 系 
统 运行 到 一 定 程度 ， 很 可 能 缓存 已 经 满 了 ， 当 有 新 的 需要 绥 存 的 内 容 要 
进入 缓存 时 ， 需 要 根据 一 定 的 策略 ， 从 绥 存 中 剔除 一 部 分 优先 级 别 较 低 
的 缓存 内 容 ， 以 腾 出 空间 供 后 续 内 容 放 入 缓存 存储 区 ， 如 何 选择 丛 换 项 
目 是 缓存 淘汰 策略 需要 考虑 的 问题 。 

另外 ， 使 用 缓存 系统 是 有 一 定 风险 存在 的 ， 即 缓存 内 容 和 索引 内 容 
不 一 致 问题 。 如 条 搜索 引擎 索引 的 文档 集合 是 静态 文 要 ， 这 个 问题 是 不 
存在 的 ， 因 为 既然 文档 集合 没有 发 生 任何 变化 ， 只 要 搜索 引擎 的 排序 算 
法 不 更 改 ， 那 么 针对 固定 的 用 户 查 询 ， 其 对 应 的 搜索 结果 是 固定 不 变 
的 ， 所 以 缓存 里 面 的 内 容 永 不 过 期 。 

但 是 在 一 般 应 用 场景 中 ， 搜 索引 擎 要 处 理 的 文档 集合 是 动态 变化 
的 ， 可 能 会 面临 新 加 入 的 文档 ， 也 可 能 会 删除 旧 的 文档 或 者 旧 的 文档 内 
容 发 生 了 变化 。 当 索引 已 经 反映 了 这 种 变化 ， 而 缓存 数据 没有 随 着 索引 
做 出 相应 的 变化 ， 那 么 束 会 发 生 缓存 内 容 和 索引 内 容 不 一 致 的 问题 。 绥 
存 更 新 俩 略 就 是 用 来 维持 两 者 一 致 性 的 。 

对 搜索 引擎 缓存 系统 来 说 ， 一 个 优秀 的 缓存 系统 ， 和 希望 能 够 在 以 下 
几 个 方面 表现 出 色 。 


1. 最 大 化 绥 存 命中 率 

所 谓 缓存 的 命中 率 ， 就 是 说 一 段 时 间 内 所 有 用 户 发 出 的 查询 中 ， 有 
多 大 比例 的 查询 对 应 的 搜索 结果 是 从 缓存 中 获得 的 。 这 个 比例 越 高 ， 说 
明 绥 存 管理 策略 越 成 功 ， 束 有 效 地 节省 了 搜索 引擎 的 计算 成 本 。 有 具体 而 
言 ， 不 同 的 缓存 淘汰 策略 就 是 采用 不 同 算法 来 获得 尽 可 能 高 的 命中 率 。 

2. 缓存 内 容 与 索引 内 容 保持 一 致 性 

好 的 缓存 管理 策略 应 该 避免 出 现 缓存 内 容 和 索引 内 容 不 一 致 的 状 


况 ， 因 为 这 种 不 一 致 会 影响 用 户 搜 索 体 验 ， 所 以 缓存 系统 需要 有 优秀 的 
绥 存 更 新 朱 略 来 达到 这 个 目的 。 


11.2 ”缓存 对 象 















































对 于 搜索 引擎 缓存 ， 在 存储 区 内 存放 的 数据 对 象 并 不 是 唯一 的 ， 可 
以 是 搜索 结果 ， 也 可 以 是 茶 个 查询 词汇 对 应 的 倒 排列 表 ， 或 者 是 一 些 搜 
索 的 中 间 结 

最 常见 的 缓存 对 象 类 型 是 用 户 查 询 请 求 所 对 应 的 搜索 结果 信息 ， 比 
如 网 页 的 标题 、URL、 包 含 用 户 查 询 词 的 动态 摘要 等 。 图 11-2 给 出 了 将 
搜索 结果 作为 缓存 内 容 的 示例 ， 绥 存 里 保存 了 “Google”， “百度 贴 
吧 ” 等 用 户 查 询 ， 以 及 其 对 应 的 搜索 结果 。 如 果 此 时 有 男 外 一 个 用 户 输 
入 “Google" 作 为 查询 ， 则 搜索 引擎 首先 在 缓存 里 面 查找 ， 发 现 已 经 存在 
这 个 用 户 查 询 项 ， 则 直接 提取 原先 的 搜索 结果 作为 输出 返回 给 用 户 。 





























网 页 标题 网 页 URL 网 页 动态 摘要 






Google 
















Entry 10: 





Google 搜 索 结果 
图 11-2 ”以 搜索 结果 作为 缓存 内 容 








男 外 一 种 比较 第 见 的 存储 对 象 类 型 是 查询 词汇 对 应 的 倒 排 列表 
(Posting List) 。 图 11-3 是 以 单词 倒 排 列表 作为 缓存 内 容 的 一 个 示例 
图 。 从 图 中 可 以 看 出 ， 以 搜索 结果 作为 缓存 内 容 的 情况 下 ， 用 户 碍 询 即 
使 包含 多 个 单词 ， 也 是 作为 一 个 整体 存储 在 缓存 槽 里 的 ， 而 以 单词 倒 排 
列表 作为 缓存 内 容 的 方式 ， 其 存储 粒度 相对 会 小 些 ， 是 以 用 户 查 询 的 分 
词 结果 存储 在 缓存 槽 里 的 。 比 如 “百度 ”贴吧 ”这 个 用 户 查 询 ， 在 搜索 结 
果 作 为 缓存 和 内容 情形 下 占用 一 项 组 存档 ， 而 在 缓存 倒 排列 表 方 式 下 会 占 











用 两 个 缓存 槽 , “百度” 和 “贴吧 ”各 自 占用 一 个 存储 位 置 。 
倒 排列 表 
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图 11-3 ”以 单词 倒 排 列表 作为 缓存 内 容 


这 两 种 不 同 的 缓存 存储 内 容 各 自 有 其 优 缺 后 ， 对 于 搜索 结果 型 缓存 
来 说 ， 其 用 户 碍 询 啊 应 速度 非常 快 ， 因 为 只 需要 进行 查找 运算 即 可 返回 
结果 ， 但 是 其 粒度 比较 粗 ， 比 如 在 如 图 11-2 所 示 的 例子 中 ， 如 果 此 时 用 
户 输入 查询 “百度 ”百科 ”， 则 搜索 引擎 会 发 现 缓存 里 面 并 不 存在 这 个 碍 
询 ， 只 能 按照 正常 搜索 流程 ， 去 调用 索引 数据 并 进行 网 页 排序 等 运算 。 
但 是 倒 排 列表 型 缓存 因为 粒度 较 小 ， 会 发 现 “ 百 度 ” 这 个 查询 词汇 已 经 在 
缓存 中 了 ， 此 时 只 需要 从 存储 在 硬盘 的 倒 排 索 引 中 读 取 “百科 ”这 个 词汇 
的 倒 排列 表 数 据 ， 然 后 进行 排序 运算 即 可 返回 结果 。 由 这 个 例子 可 以 看 
出 ， 倒 排列 表 型 缓存 粒度 小 ， 所 以 命中 紊 高 ， 但 是 因为 保存 的 只 是 倒 排 
列表 这 种 中 间 数 据 ， 所 以 仍然 需要 进行 后 续 的 计算 才能 返回 最 终结 
在 用 户 啊 应 效率 方面 慢 于 搜索 结果 型 缓 企 。 而 搜索 结果 型 缓存 粒度 大 ， 
如 打 在 缓存 内 命中 用 户 碍 询 ， 则 很 快 给 出 最 终结 末 ， 但 是 命中 率 要 低 于 
倒 排列 表 型 缓存 。 
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般 取 前 列 的 K 个 搜索 结果 〉 ， 上 所 以 管理 起 来 比较 简单 ， 而 倒 排列 表 型 组 
存 需 要 绥 存 作 个 单词 的 倒 排 列表 ， 而 不 同 单词 的 倒 排 列表 大 小 差异 很 
大 ， 如 琳 过 到 一 个 非 第 大 的 倒 排 列表 ， 可 能 会 对 目前 的 缓存 空间 造成 较 
大 影响 ， 甚 至 被 迫 移 出 经 癌 使 用 的 用 户 碍 询 缓存 项 ， 所 以 如 何 管 理 倒 排 
列表 型 缓存 存储 区 相对 而 言 比较 复杂 。 

以 上 两 种 缓存 对 象 是 比较 常见 的 缓存 类 型 ， 还 有 一 种 不 太 经 常 使 用 
的 方式 ， 即 保留 两 个 经 常 搭配 出 现 单 词 的 倒 排 列表 的 交集 ， 以 这 种 中 间 
结果 形式 作为 缓存 内 容 。 因 为 用 户 查 询 有 很 大 比例 是 由 2 个 或 者 3 个 单词 
组 成 的 ， 对 于 多 词 构成 的 用 户 碍 询 ， 搜 索引 擎 在 从 硬盘 读 出 每 个 词汇 的 
倒 排列 表 后 ， 需 要 进行 文档 队列 的 交集 运算 。 而 如 果 能 够 事 移 将 这 些 区 
集运 算 的 计算 结果 绥 存 起 来 ， 则 可 以 避免 后 续 的 交集 运算 ， 提 高 搜索 系 
统 返回 结果 的 速度 。 但 是 这 种 词汇 组 合 的 数据 量 非常 大 ， 都 放置 到 内 存 
中 往往 很 困难 ， 所 以 一 般 这 种 中 间 结 果 会 存储 在 磁盘 上 。 这 种 类 型 的 组 
存 不 能 单独 使 用 ， 但 是 可 以 作为 多 级 缓存 中 的 一 个 缓存 级 别 存在 ， 对 其 
他 类 型 的 缓存 起 到 补充 作用 。 


11.3 RTA 


搜索 引擎 缓存 的 结构 设计 可 以 有 多 种 选择 ， 最 常见 的 是 单 级 缓存 ， 
也 可 以 设计 为 二 级 甚至 是 三 级 缓存 结构 。 

单 级 缓存 是 一 种 最 常见 也 最 简单 直接 的 缓存 结构 ， 缓 存 系统 中 只 包 
含 一 个 单一 缓存 ， 配 以 缓存 管理 策略 构成 了 整个 缓 在 系统 。 图 11-4 左 方 
和 右 方 分 别 是 搜索 结果 型 和 倒 排列 表 型 单 级 缓存 示意 图 。 






































图 11-4 RABE 


尽管 单 级 缓存 只 包含 一 级 缓存 ， 但 是 对 于 不 同 缓存 对 象 类 型 来 说 ， 
其 内 部 处 理 流程 有 一 定 差 异 。 搜 索 结 果 型 缓存 首先 在 缓存 中 查找 是 否 包 
含 用 户 碍 询 ， 如 果 存 在 则 直接 将 搜索 结果 返回 ， 人 否则 对 用 户 查 询 进行 处 
理 ， 由 搜索 系统 返回 搜索 结果 并 加 入 缓存 中 ， 之 后 将 搜索 结果 返回 给 用 
户 。 对 于 倒 排 列表 型 缓存 ， 其 处 理 步 又 正好 相反 ， 查 询 处 理 阶 段 首 先 将 





用 户 人 查询 分 词 ， 之 后 在 缓存 中 但 找 这 些 蛙 词 对 应 的 倒 排 列表 ， 如 果 所 有 
单词 的 倒 排 列表 都 在 缓存 中 ， 则 由 查询 处 理 模 块根 据 单 词 倒 排 列表 对 搜 
索 结束 进 行 排序 ， 并 将 搜索 结果 返回 给 用 户 。 如 果 发 现 菏 些 单词 的 倒 排 
列表 不 在 缓存 中 ， 会 首先 从 磁盘 读 入 单词 对 应 的 倒 排列 表 ， 将 其 放 入 绥 
存 ， 之 后 进行 得 询 处 理 步 又 。 

二 级 缓存 结构 由 两 级 缓存 串联 构成 ， 第 1 级 缓存 是 搜索 结 采 型 组 
存 ， 第 2 级 缓存 是 倒 排 列表 型 缓存 ， 图 11-5 是 二 级 绥 存 示意 图 。 当 系统 
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返回 搜索 结果 ; 如 果 在 一 级 缓存 没有 找到 完全 相同 的 查询 ， 则 转向 二 级 
绥 存 查找 构成 得 询 的 各 个 单词 的 倒 排 列表 ， 如 果 某 些 单词 的 倒 排列 表 没 
有 在 二 级 缓存 中 找到 ， 则 从 磁盘 该 取 对 应 的 倒 排列 表 ， 进 入 二 级 缓存 ; 
之 后 ， 对 所 有 单词 的 倒 排列 表 进 行 求 交 集运 算 并 根据 排序 算法 排序 输出 
最 相关 的 搜索 结果 ， 将 相应 的 用 户 查 询 和 搜索 结果 放 入 一 级 缓存 进行 存 
储 ， 并 返回 最 终结 果 给 用 户 。 采 用 两 级 缓存 结构 的 出 发 点 在 于 能 够 融合 
A 
站 优点。 




















二 级 缓存 示意 图 


图 11-5 


11.4 缓存 淘 汰 策略 (Evict Policy) 
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从 已 有 的 缓存 项 中 剔除 相对 最 不 重要 的 项 目 ， 而 不 同 的 缓存 淘汰 策略 就 
古 根据 不 同 的 算法 来 衡量 项 目的 重要 性 ， 并 殊 除 掉 最 不 重要 项 目 占用 的 
内 存 空间 。 缓 存 淘汰 策略 方法 众多 ， 从 宏观 角度 ， 可 以 将 其 分 为 动态 束 
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11.4.1 动态 策略 


动态 策略 的 缓存 数据 完全 来 自 于 在 线 用 户 查 询 请 求 ， 这 种 缓存 策略 
的 基本 思路 是 : 对 缓存 项 保留 一 个 权重 值 ， 这 个 权重 值 根据 查询 命中 情 
况 动 态 调整 ， 当 缓存 已 满 的 情况 出 现时 ， 优 先 淘汰 权重 值 最 低 的 那个 组 
存 项 ， 通 过 这 种 方式 来 腾 出 空间 。 比 较 常 见 的 动态 策略 包括 : LRU 策 
HS. LandLord seh & SLRU ŻE MUH SEAS o 





























LRU 策 略 : 最 近 最 少 使 用 策略 (Least Recently Used) 


LRU 淘 汰 策略 是 计算 机 领域 使 用 非常 广泛 的 缓存 蔡 换 算法 ， 在 操作 
系统 内 存 管 理 和 Web 页 面 缓存 等 领域 也 发 挥 着 重要 作用 。LRU 策 略 的 基 
本 思想 是 : 当 缓 存 已 满 时 ， 将 在 设 定 的 时 间 范 围 内 使 用 次 数 最 少 的 项 目 
0 0 








在 实际 系统 中 ， 往 往 为 每 个 缓存 项 设置 一 个 计数 希 ， 将 命中 得 询 的 
计数 絮 清 零 ， 与 此 同时 ， 其 他 伍 询 计数 费 加 1。 如 果 缓 存 已 满 ， 则 将 计 
数 喜 数值 最 大 的 项 目 剔除 出 缓存 。 


LandLord 策 略 


LandLord 策 略 是 一 种 加 权 绥 存 策略 (Weighted Cache) 。 其 基本 计 
算 流 程 如 下 : 当 一 个 缓存 项 插入 缓存 的 时 候 ， 会 根据 缓存 项 能 够 获得 收 
荔 和 缓存 项 所 占 内 存 大 小 的 比率 设 定 一 个 过 期 值 (Deadline) ， 可 以 将 
这 个 比率 理解 为 系统 缓存 这 个 项 目的 性 价 比 。 如 果 绥 存 已 满 ， 需 要 吻 除 
项 目的 时 候 ， 选 择 过 期 值 最 小 的 项 目 进行 淘汰 ， 即 淘汰 性 价 比 最 低 的 项 
目 。 同 时 ， 其 他 未 被 淘汰 的 项 目 对 应 的 过 期 值 都 减 去 被 淘汰 项 目的 过 期 
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策略 调 大 。 


SLRU 策 略 : 大 小 自 适 应 LRU (Size-adjusted LRU) 


SLRU 策 略 是 对 LRU 方 法 的 改进 。 绥 存 被 分 为 两 个 部 分 : 非 保护 区 
域 和 保护 区 域 。 每 个 区 域 的 缓存 项 部 按照 最 近 使 用 频 度 由 高 到 低 排 序 ， 
频率 高 端 叫做 MRU， 低 端 叫做 LRU。 如 果 某 个 查询 没有 在 缓存 中 找 
到 ， 那 么 将 这 个 碍 询 放 入 非 保护 区 域 的 MRU 端 ;如 果 东 个 碍 询 在 缓存 
命中 ， 则 把 这 个 查询 记录 放 到 保护 区 的 MRU 端 ， 如 果 保 护 区 已 满 ， 则 
把 记录 从 保护 区 放 入 非 保 护 区 的 MRU， 这 样 保护 区 的 记录 最 少 要 被 访 
问 两 次 。 淘 汰 机 制 是 将 非 保护 区 的 LRU 端 缓存 项 淘汰 。 


11.4.2 ”混合 策略 


动态 策略 的 缓存 数据 完全 来 自 于 在 线 的 用 户 查 询 请 求 ， 混 合 策略 与 
此 不 同 ， 其 缓存 数据 一 方面 来 自 于 在 线 用 户 查 询 ， 一 方面 来 自 于 搜索 日 
志 等 历史 数据 。 目 前 效果 较 好 的 混合 策略 包括 SDC 策 略 和 AC 策 略 。 图 
11-6 是 这 种 策略 的 示意 图 。 












































图 11-6 ”静态 动态 混合 策略 示意 图 





SDCR: 静态 动态 混合 绥 存 策略 (Static and Dynamic 
Caching ) 


SDC 策 略 是 一 种 混合 缓存 策略 ，SDC 将 缓存 切割 为 两 个 部 分 ， 一 个 
静态 缓存 与 一 个 动态 缓存 。 所 谓 静态 缓存 ， 即 缓存 内 容 是 事先 根据 搜索 





日 志 统 计 出 的 最 高 频 的 那 部 分 查询 请 求 ， 在 一 定时 间 范 围 里 是 相对 不 变 
的 ;而 动态 缓存 则 可 以 配合 使 用 LRU 等 其 他 缓存 管理 策略 ， 根 据 用 户 查 
询 请 求 不 断 更 换 内 容 。 通 过 同时 使 用 静态 缓存 和 动态 缓存 ， 可 以 有 效 增 
加 绥 存 请 求 合 中 率 。SDC 是 目前 效果 最 好 的 缓存 策略 之 一 。 


AC 策 略 : 准 入 策略 (Admission Control) 


准 入 策略 是 类 似 于 SDC 策 略 的 一 种 方法 。 该 方法 也 将 缓存 分 为 两 个 
部 分 ， 分 别 存储 高 频 出 现 的 历史 用 户 碍 询 和 动态 出 现 的 用 户 碍 询 及 其 对 
应 的 搜索 结果 。 与 SDC 不 同 之 处 在 于 : SDC 的 静态 缓存 所 存储 的 高 频 用 
户 碍 询 是 完全 从 过 去 的 搜索 日 志 统计 得 来 的 静态 内 容 ， 而 AC 策 略 则 丝 
合 了 搜索 日 志 的 统计 数据 、 但 询 长 度 等 多 个 判断 因素 ， 以 此 来 预测 茶 个 
Bene a ae ne 
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11.5 ”缓存 更 新 策略 (Refresh Policy) 


如 果 搜 索引 擎 的 索引 内 容 不 发 生变 化 ， 绥 存 的 内 容 就 总 是 和 索引 系 
统 保持 一 致 。 但 是 搜索 引擎 索引 经 党 更 新 ， 如 果 索 引 内 容 发 生变 化 ， 而 
缓存 内 容 个 随 痢 索引 变动 ， 会 导致 缓存 内 容 和 索引 内 容 的 不 一 致 ， 这 种 
不 一 致 对 于 用 户 的 搜索 体验 会 造成 负面 影响 。 缓 存 更 新 策略 就 是 通过 一 
定 的 技术 手段 尽 可 能 保持 缓存 内 容 和 索引 内 容 的 一 致 性 。 

目前 很 多 搜索 引擎 使 用 简单 的 更 新 策略 ， 即 在 搜索 引擎 比较 索 忙 的 
时 候 不 考 碟 缓存 更 新 问题 ， 而 等 到 搜索 引擎 请 求 很 少 的 时 候 ， 比 如 午夜 
等 时 间 段 ， 将 缓存 内 的 内 容 批 量 进行 更 新 ， 使 缓存 内 容 保持 和 索引 和 内 容 
的 一 致 。 这 种 简单 策略 适合 索引 更 新 不 是 非常 频繁 的 应 用 场景 ， 对 于 过 
引 更 新 频 索 的 场景 ， 需 要 相对 复杂 些 的 缓存 更 新 人 策略。 

根据 缓存 内 容 和 索引 内 容 联系 的 密切 程度 ， 目 前 的 缓存 更 新 策略 可 
以 分 为 两 种 : 缓存 一 索引 密切 耦合 全 略 和 缓存 一 索引 非 炎 合生 略 。 

绥 存 一 索引 密切 炎 合 荣 略 在 索引 和 缓存 之 间 增 加 一 种 直接 的 变化 通 
知 机 制 ， 一 旦 索引 内 容 用 生变 化 则 通知 缓存 系统 ， 绥 存 系统 根据 一 定 的 
方法 判断 哪些 缓存 的 内 容 发 生 了 改变 ， 然 后 将 改变 的 缓存 内 容 进 行 更 
新 ， 或 者 设 定 绥 存 项 为 过 期 ， 这 样 就 可 以 紧密 跟踪 并 反映 索引 变化 内 
容 。 这 种 密切 耦合 策略 在 实际 实现 时 是 非常 复杂 的 ， 因 为 频繁 的 索引 更 
新 导致 频 楷 的 缓存 更 新 ， 对 系统 效率 及 缓存 命中 率 都 会 有 直接 影响 。 图 
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搜索 引擎 时 ， 系 统 会 对 文档 内 容 进 行 分 析 ， 抽 取出 文档 中 TF*IDF 得 分 
较 高 的 索引 词汇 ， 并 将 这 些 词 汇 及 其 得 分 传递 给 失效 通知 模块 ， 因 为 如 
果 缓 存 中 的 查询 包含 这 些 索 引 词 汇 的 话 ， 很 可 能 该 文档 将 会 使 得 缓存 内 
容 失 效 ， 失 效 通 知 模块 会 评估 哪些 缓存 项 需要 进行 内 容 更 新 ， 如 果 荣 项 
绥 存 项 需要 更 新 ， 则 提取 最 新 的 缓存 内 容 更 新 旧 绥 存 项 。 
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图 11-7 ”缓存 一 索引 密切 耦合 策略 示意 图 
绥 存 一 索引 非 耦 合 策略 则 使 用 相对 简单 的 策略 ， 当 索引 变化 时 并 不 
随时 通知 绥 存 系统 进行 内 容 更 新 ， 而 是 给 每 个 缓存 项 设 定 一 个 过 期 值 
(Time To Live) ， 随 着 时 间 流 逝 ， 绥 存 项 会 逐步 过 期 。 通 过 这 种 方式 
可 以 将 缓存 项 和 索引 的 不 一 致 尽 可 能 减 小 。 雅 虎 的 搜索 引擎 和 采用 了 缓存 
一 索引 非 耦 合 策略 来 维护 缓存 内 容 的 更 新 。 


本 章 提 要 
使 用 搜索 引擎 缓存 技术 可 以 加 快 用 户 啊 应 速度 并 节省 计算 资 








源 。 





绥 存 系统 的 目标 是 最 大 化 缓存 命中 雍和 保持 缓存 内 容 与 索引 内 
容 的 一 致 性 。 


绥 存 存储 对 象 主要 包括 网 页 搜索 结果 及 碍 询 词 对 应 的 倒 排 列 





表 。 

缓存 系统 可 以 有 多 层级 结构 。 

绥 存 淘汰 打上 略 方法 众多 ， 从 宏观 角度 ， 可 以 将 其 分 为 动态 朱 略 
和 静态 动态 混合 策略 。 
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第 12 章 ”搜索 引擎 肥 展 趋 势 


“ 故 善战 者 ， 求 之 于 势 ， 不 责 于 人 故 能 择 人 而 任 势 。 任 势 者 ， 其 战 人 
也 ， 如 转 木 石 。 木 石 之 性 ， 安 则 静 ， 危 则 动 ， 方 则 止 ， 圆 则 行 。 故 善 
RAH, WEEE OZ es, th.” 

Q 《孙子 兵法 : 兵 势 第 五 》 





前 述 章节 讲解 了 搜索 引擎 相关 的 核心 技术 ， 搜 索引 擎 的 快速 发 展 也 
仅 是 最 近 15 年 及 生 的 ， 这 与 互联 网 的 发 展 趋势 密切 相关 。 最 近 几 年 ， 互 
联网 在 经 过 了 Web 2.0 的 市 场 培育 阶段 后 ， 迎 来 了 以 互联 网 用 户 的 个 性 
化 和 社交 化 为 中 心 的 趋势 。 同 时 ， 移 动 设备 的 逐渐 流行 及 与 上 述 两 大 趋 
势 的 融合 ， 促 生 了 很 多 新 型 应 用 ， 为 了 迎接 和 顺应 这 种 趋势 ， 对 于 搜索 
引擎 来 说 ， 也 产生 了 新 的 挑战 。 

本 章 简 略 叙 述 搜索 引擎 为 了 应 对 当前 互联 网 发 展 漳 流 ， 所 体现 出 的 
一 些 新 兴 领 域 或 者 发 展 重点 。 这 些 撤 术 领域 很 多 并 不 成 熟 ， 正 在 快速 友 
展 之 中 ， 所 以 本 章 并 不 详 述 其 技术 细节 ， 对 于 每 个 趋势 ， 大 致 讲解 其 特 
点 及 基本 技术 思路 。 对 于 行业 发 展 趋势 ， 不 同人 观点 迎 异 ， 本 章 所 述 这 
些 观 点 属 作者 一 家 之 言 ， 仅 供 读者 参考 。 


12.1 个 性 化 搜索 


互联 网 的 发 展 已 经 进入 了 新 的 阶段 ， 即 以 用 户 为 中 心 的 阶段 。 如 何 
通过 用 户 的 网 上 行为 建立 用 户 的 个 人 模型 ， 并 基于 此 ， 提 供 精 准 的 个 性 
化 服务 成 为 各 种 研究 的 重点 。 搜 索引 擎 也 不 例外 ， 个 性 化 搜索 即 是 为 了 
解决 这 个 问题 而 提出 的 技术 领域 。 

对 于 搜索 引擎 用 户 来 说 ， 由 于 其 个 人 兴趣 不 同 ， 即 使 是 同一 个 碍 询 
ia], Hay HER Ase. ECO A “Ajax”, WRITS 
是 计算 机 工程 人 员 ， 那 么 很 有 可 能 希望 查找 的 是 技术 资料 ， 而 如 果 用 户 
古 个 球迷 ， 那 么 很 可 能 希望 但 找 的 是 阿 页 殉 斯 球 队 的 信息 。 所 以 即使 是 
相同 的 查询 词 ， 如 何 为 不 同 的 用 户 提 供 个 性 化 的 搜索 结果 ， 成 为 衡量 搜 
索引 擎 搜索 质量 非常 重要 的 标准 。 








从 技术 角度 看 ， 个 性 化 搜索 任务 主要 面临 两 个 问题 ， 如 何 建 并 用 户 
的 个 人 兴趣 模型 ? 在 搜索 引擎 里 如 何 使 用 这 种 个 人 兴趣 模型 ? 

个 性 化 搜索 的 核心 是 根据 用 户 的 网 络 行为 ， 建 立 一 套 准确 的 个 人 兴 
趣 模型 。 图 12-1 是 一 种 比较 理想 化 的 用 户 建 模 方式 ， 即 全 面 收集 与 用 户 
相关 的 信息 源 ， 包 括 用 户 搜 索 历 史 及 点 击 记录 ， 用 户 浏览 过 的 网 页 、 用 
户 E-mail 信 息 、 用 户 所 收藏 的 信息 及 用 户 发 布 的 信息 比如 博客 、 微 博 等 
内 容 。 在 此 基础 上 建立 用 户 兴 趣 模型 ， 用 户 兴 趣 模型 的 表达 方式 也 有 很 
多 种 选择 ， 比 较 常 见 的 是 从 信息 源 抽取 出 的 关键 词 及 其 权重 ， 也 可 以 将 
关键 词 映射 到 语义 层面 的 本 体 结构 ， 或 者 是 浏览 文档 形成 的 层级 分 类 结 
构 。 不 论 采 取 哪 种 方式 ， 都 通过 以 上 手段 建立 了 能 够 代表 用 户 长 期 和 短 
期 兴趣 的 用 户 模 型 。 





用 户 模型 





图 12-1 一 种 比较 理想 化 的 用 户 建 模 方式 


在 建 好 用 户 模 型 后 ， 对 于 搜索 引擎 来 说 ， 如 何 使 用 这 个 用 户 模 型 也 
古 需 要 考虑 的 问题 ， 从 目前 的 研究 来 看 ， 一 般 有 两 种 不 同 的 使 用 方式 : 
一 种 比较 常见 的 方式 是 对 初次 搜索 结果 重 排 序 ， 即 利用 用 户 当 前 的 查询 
词 获取 排 在 前 列 的 搜索 结果 ， 之 后 根据 用 户 模型 对 这 些 前 列 搜索 结果 重 
新 排序 ， 排 序 原则 是 与 用 户 个 人 兴趣 越 匹 配 的 内 容 排 名 越 徘 前 ， 为 外 一 
种 方式 是 对 用 户 当前 的 查询 词 进行 直接 扩展 ， 即 从 用 户 兴趣 模型 里 找 出 


























与 当前 查询 词 密切 相关 的 词汇 ， 之 后 将 用 户 查 询 改写 为 扩展 的 查询， 使 
用 搜索 引擎 查找 结果 ， 这 样 对 于 不 同 的 用 户 ， 即 使 是 输入 相同 的 碍 询 
词 ， 也 会 获得 不 同 的 搜索 结果 。 

为 不 同 用 户 提供 个 性 化 的 搜索 结果 ， 这 必然 是 搜索 引擎 总 的 发 展 趋 
势 ， 但 是 现 有 技术 方法 也 存在 一 些 问题 。 首 先是 用 户 的 隐私 问题 ,为 了 
获取 精准 的 用 户 兴 趣 模型 ， 就 需要 多 方面 收集 用 户 信 息 ， 而 这 很 可 能 暴 
露 用 户 隐 私 。 男 外 一 点 ， 用 户 的 兴趣 是 不 断 变 化 的 ， 而 如 果 太 依赖 历史 
信息 ， 可 能 无 法 反映 用 户 兴 趣 的 转移 和 变化 。 


12.2 ”社会 化 搜索 
随 着 Facebook 的 逐日 流行 ， 社 交 网 络 平台 和 相关 应 用 占据 了 互联 网 


的 主流 《参见 图 12-2) 。 社 交 网 络 平台 强调 用 户 之 间 的 联系 和 交互 ， 这 
对 传统 的 搜索 技术 提出 了 新 的 挑战 。 
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图 12-2 ”社交 网 络 平台 


传统 搜索 技术 强调 搜索 结 末 和 用 户 需求 的 相关 性 ， 社 会 化 搜索 除了 
相关 性 外 ， 还 额外 增加 了 一 个 维度 ， 即 搜索 结果 的 可 信赖 性 。 对 于 茶 个 
查询 ， 相 关 的 搜索 结果 可 能 成 二 上 万 ， 但 是 如 果 是 处 于 用 户 社 交 网 络 内 
其 他 用 户 发 布 的 信息 、 扣 评 的 评论 或 者 验证 过 的 信息 则 更 可 依赖 ， 这 是 
与 用 户 的 心理 密切 相关 的 。 社 会 化 搜索 即 结合 了 这 种 相关 性 和 可 依赖 
性 ， 为 用 户 提供 更 准确 、 更 值得 信任 的 搜索 结果 。 

社会 化 搜索 的 本 质 是 信息 过 滤 与 推荐 ， 即 对 用 户 的 疑问 ， 社 会 化 搜 
索 系 统 推荐 合适 的 人 来 回答 用 户 疑问 ， 或 者 通过 社交 关系 过 滤 掉 不 可 信 
赖 内 容 ， 推 荐 可 信赖 内 容 ， 图 12-3 是 社会 化 搜索 整体 流程 示意 图 。 根 据 
其 他 用 户 和 提问 者 的 关系 ， 社 会 化 搜索 系统 重点 关注 4 类 关系 : 直接 有 
社交 联系 的 成 员 ， 比 如 熟人 或 者 朋友 ; 有 相同 兴趣 的 成 员 ;， 用 户 所 加 入 
网 络 社区 的 成 员 ; 领域 专家 。 直 接 有 共有 社交 联系 的 成 员 对 搜索 者 具有 下 
接 影 响 力 ， 比 如 购物 搜索 时 对 产品 品牌 的 评价 ; 有 相同 兴趣 的 成 员 则 形 
































成 了 有 效 的 信息 过 小 者 或 者 推荐 者 ， 搜 索 者 所 在 社区 的 成 员 从 本 质 上 讲 
也 是 有 相同 兴趣 的 成 员 ， 对 于 搜索 者 的 问题 能 够 形成 有 效 的 信息 过 滤 和 
推荐 ， 而 领域 专家 则 对 问题 的 解答 具有 权威 性 。 通 过 结合 或 者 分 别 使 用 
以 上 4 关 社 区 成 员 的 信息 ， 社 会 化 搜索 系统 可 以 给 搜索 者 提供 合适 的 回 
答 者 或 者 值得 信赖 的 信息 。 
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图 12-3 ”社会 化 搜索 整体 流程 示意 图 


社会 化 搜索 从 其 性 质 上 讲 ， 和 个 性 化 搜索 是 密 不 可 分 的 ， 因 为 用 户 
的 社会 关系 其 实 也 是 个 性 化 信息 的 一 个 组 成 部 分 。 社 会 化 搜索 将 搜索 维 
度 从 信息 维 扩展 到 关系 维 ， 丰 富 了 信息 源 ， 对 于 获得 更 准确 的 搜索 结果 
帮助 很 大 ， 具 有 广阔 的 发 展 空 间 。 这 个 领域 方兴未艾 ， 无 论 是 商业 公司 
还 是 研究 机 构 ， 对 于 这 个 领域 还 处 于 探索 阶段 。 


12.3 ”实时 搜索 


随 看 Twitter、 微 博 等 所 供 微 信息 友 布 的 个 人 媒体 平台 逐步 兴起 ， 对 
搜索 引擎 的 实时 性 要 求 日 益 提 高 。 微 博 平 台 和 传统 的 信息 平台 比如 网 
页 、 博 客 、 新 闻 等 相 比 ， 有 其 特殊 性 。 其 中 一 个 突出 的 特点 是 时 效 性 











强 ， 越 来 越 多 突 发 事件 的 首次 发 布 出 现在 微 博 平台 上 ， 比 如 某 地 地 震 或 
者 社会 事件 ， 这 是 有 其 必然 性 的 。 
实时 搜索 与 传统 的 网 页 搜索 有 很 大 差异 。 实 时 搜索 的 核心 强 
调 “ 快 >， 即 用 户 发 布 的 信息 能 够 第 一 时 间 被 搜索 引擎 发 现 、 索 引 并 搜索 
到 。 传 统 搜 索引 擎 在 实现 机 制 上 很 难 达 到 这 一 点 ， 所 以 实时 搜索 在 搜索 
T ke ee 
12-4) 。 








图 12-4 实时 搜索 系统 
对 于 Twitter 或 者 新 滔 微 博 这 种 信息 平台 来 说 ， 信 息 的 快速 获取 本 身 





不 存在 问题 。 而 对 于 搜索 引擎 服务 公司 来 说 ， 如 何 能 够 快速 全 面 地 获取 
微 博 数据 束 成 了 严重 的 挑 成 ， 目 前 的 解决 方案 大 致 有 两 种 。 一 种 是 与 微 
博 平台 合作 ， 由 信息 平台 将 最 新 的 信息 实时 推送 给 搜索 引擎 。 必 外 一 种 
是 由 疏 虫 实时 抓 取 ， 这 里 面 有 知 干 技术 挑战 : 首先 ， 微 博 平台 作为 个 人 
信息 发 布 平 台 ， 往 往 需 要 用 户 登 录 使 用 ， 这 对 于 扑 虫 来 说 就 形成 了 第 1 
道 屏 障 ;， 另 外， 即使 肘 虫 能 够 登录 微 博 系 统 ， 如 何 全 面 获取 信息 ， 难 度 
也 很 大 ， 微 博 用 户 以 亿 计 ， 而 且 微 博 内 容 短 小 ， 同 时 不 像 网 页 可 以 通过 
链接 传递 逐步 发 现 更 多 内 容 ， 如 何 保证 信息 全 面 性 成 为 第 2 道 屏 障 ， 尽 
党 可 以 通过 用 户 关 注 关 系 获 得 部 分 微 博 数据 ， 其 全 面 性 是 难以 保障 的 ; 
如 果 疏 虫 无 法 保证 信息 的 全 面 性 ， 那 么 实时 性 也 是 无 法 满足 的 ， 因 为 很 
可 能 最 新 发 布 的 消 妃 爬虫 根本 抓 取 不 到 。 从 这 几 个 方面 讲 ， 微 博 平台 对 











于 搜索 引擎 来 说 是 有 其 天 然 封 闭 性 的 。Google 目 前 通过 与 Twitter 合作 的 
方式 获取 微 博 数据 。 

在 索引 构建 方面 ， 实 时 搜索 要 求 第 一 时 间 对 新 发 布 的 内 容 进 行 索 
引 ， 即 用 户 发 布 则 信息 可 搜 。 这 对 传统 的 索引 机 制 提出 了 挑战 ， 要 求索 
引 系统 支持 在 建立 索引 的 过 程 中 ， 也 能 够 提供 搜索 服务 。 

在 搜索 结果 排序 方面 ， 实 时 搜索 也 有 其 特点 ， 除 了 内 容 相关 性 要 求 
外 ， 时 间 因素 是 搜索 排序 中 首要 的 考虑 因素 ， 很 多 实时 搜索 系统 默认 按 
照 时 间 顺 序 排序 ， 即 最 新 发 布 的 信息 排 在 前 列 。 

对 于 一 个 完善 的 实时 搜索 排序 算法 来 说 ， 一 般 重点 考虑 以 下 4 方面 
的 因子 。 

内 容 相关 性 信息 是 否 与 用 户 查询 主题 相关 。 
时 效 性 ， 发 布 时 间 越 近 的 信息 ， 其 搜索 排名 应 该 越 靠 前 ， 

. 信息 重要 性 ， 越 重 要 或 者 越 流行 的 信息 排名 应 该 越 靠 前 ， 作 为 
重要 性 或 者 流行 性 的 判断 指标 有 很 多 ， 比 如 信息 发 布 来 源 是 否 可 靠 〈 微 
博 中 信息 发 布 者 的 重要 性 ) 、 被 转发 次 数 多 少 、 被 评论 次 数 多 少 等 都 可 
以 作为 判断 指标 。 

， 社交 性 ， 一 般 来 说 ， 微 博 平台 同时 也 是 一 个 社交 平台 ， 微 博 用 
户 的 关注 人 和 被 关注 人 体现 了 这 种 社交 性 。 排 序 时 ， 应 该 将 搜索 结果 的 
社交 性 体现 出 来 ， 即 用 户 关 注 人 发 布 的 信息 排名 应 该 靠 前 。 

综 上 所 述 ， 实 时 搜索 在 信息 获取 、 信 息 索引 和 排序 机 制 方面 都 有 其 
特性 ， 以 此 和 传统 搜索 引擎 做 出 区 分 ， 而 随 着 突 发 事件 越 来 越 多 在 这 种 
平台 发 布 ， 其 重要 性 不 言 而 喻 。 


12.4 ”移动 搜索 


随 看 智能 手机 的 快速 及 展 ， 基 于 手机 等 移动 设备 的 搜索 日 荔 注 行 。 
移动 设备 对 搜索 应 用 的 需求 与 PC 等 不 同 ， 主 要 源 于 其 与 PC 相 比 资源 的 
有 限 性 ， 比 如 手机 的 屏幕 较 小 ， 可 显示 区 域 不 多 ; 手机 存储 和 计算 资源 
能 力 较 弱 ;手机 设备 打开 网 页 的 速度 较 慢 ， 手 机 输入 较为 烦琐 等 。 所 以 
针对 移动 设备 的 搜索 需要 根据 手机 等 移动 设备 自身 的 特点 ， 开 发 适合 其 
资源 和 设备 的 搜索 应 用 。 

使 用 手机 搜索 与 PC 搜索 一 样 ， 由 3 个 步骤 组 成 : 用 户 输入 查询 ， 搜 
索引 擎 提供 搜索 结果 信息 ， 用 户 点 击 打开 感 兴趣 的 页 面 。 考 碟 到 移动 设 
备 的 资源 有 限 ， 在 这 3 个 步骤 都 要 考虑 如 何 增加 用 户 的 体验 ， 如 图 12-5 




































































所 示 。 









Í sanma > 
图 12-5 “移动 搜索 3 步 又 


对 于 用 户 输入 查询 这 一 环节 来 说 ， 因 为 输入 难度 比 果 面 设备 大 ， 不 
够 便捷 ， 包 括 移动 设备 中 的 中 文 输入 法 由 于 资源 所 限 、 智 能 性 不 足 ， 所 
以 对 于 移动 搜索 来 说 ， 如 何 让 用 户 输入 更 便捷 是 最 主要 的 问题 。 在 移动 
搜索 环境 下 ， 用 户 查 询 词 的 自动 补 全 和 相关 搜索 提示 等 搜索 功能 更 重 
要 ， 通 过 这 种 辅助 手段 可 以 有 效 减少 用 户 的 输入 次 数 ， 增 加 用 户 体验 。 
另外 ， 也 可 以 通过 非 文本 输入 ， 比 如 语音 识别 输入 的 方式 来 减少 用 户 输 
入 的 难度 。 

由 于 移动 设备 屏幕 较 小 ， 如 何在 这 么 小 的 展示 面积 里 让 用 户 更 快 、 
更 直接 地 找到 答案 至 关 重 要 。 所 以 ， 移 动 设备 搜索 对 搜索 的 精度 及 搜索 
结果 的 展示 方式 要 求 更 高 。 一 般 会 考虑 尽 可 能 将 搜索 的 答案 展示 在 搜索 
结果 的 摘要 区 域 ， 或 者 提供 网 页 内 容 更 细致 准确 的 摘要 信息 ， 这 样 让 用 
户 从 搜索 结果 展示 页 面 就 可 以 直接 获取 答案 ， 免 除 用 户 下 载 页 面 和 在 页 
面 内 容 里 查找 的 过 程 。 

如 果 用 户 在 搜索 结果 的 摘要 区 域 无 法 获得 答案 ， 束 必须 点 击 网 页 ， 
查看 页 面 内 容 ， 以 搜索 引擎 目前 的 搜索 精度 来 看 ， 这 步 多 多 少 少 是 难免 
的 。 既 然 如 此 ， 目 标 网 页 往往 内 容 很 多 ， 包 含 导 航 栏 、 广 告 栏 、 大 量 图 
片 等 既 消 耗 带宽 资源 ， 又 与 用 户 搜索 内 容 无 关 的 信息 ， 所 以 在 这 一 步 
又 ， 移 动 搜索 的 问题 承 转 化 成 了 如 何 提供 给 用 户 页 面 中 最 重要 、 最 相关 





























的 部 分 。 搜 索 系 统 可 以 为 用 户 提 供 加 工 过 的 目标 页 面 ， 通 过 分 析 目 标 网 
页 的 结构 ， 目 动 提取 重要 内 容 ， 只 将 这 部 分 内 容 展示 给 用 户 ， 有 效 增加 
用 户 体验 。 

智能 手机 的 快速 普及 只 是 测 流 的 开头 ， 以 后 一 定 会 更 加 快速 地 发 
展 ， 所 以 移动 搜索 的 市 场 占有 率 会 逐步 上 升 而 其 最 核心 的 要 求 是 如 何 
在 资源 有 限 的 情况 下 增加 用 户 体验 。 


12.5 ”地理 位 置 感 知 搜索 


随 着 智能 手机 价格 的 下 降 和 大 众人 化， 智能 手机 服务 也 日 荔 流 行 ， 基 
于 地 理 位 置 感知 的 搜索 是 其 中 的 应 用 之 一 。 目 前 很 多 逢 能 手机 不 仅 能 够 
获取 用 户 所 在 位 置 的 GPS 信息 ， 而 且 可 以 通过 陀螺 仪 等 手机 内 部 设备 感 
知 用 户 的 朝 回 ， 基 于 这 种 信息 ， 可 以 为 用 户 提 供 准 确 的 地 理 感知 信息 及 
相关 搜索 服务 。 

我 们 可 以 设想 一 种 应 用 场景 (参考 图 12-6) ， 一 个 旅游 爱好 者 在 英 
国旅 游 ， 当 他 走 到 “大 本 钟 * 前 面 时 ， 地 理 位 置 感知 搜索 可 以 自动 推送 给 
用 户 关 于 “大 本 钟 ?的 相关 知识 ， 比 如 建造 历史 、 设 计 者 、 有 关 逸 闻 趣 事 
等 丰富 的 相关 信息 ， 这 就 是 一 种 典型 的 地 理 位 置 感知 搜索 应 用 ， 关 似 的 
应 用 在 不 同 的 具体 领域 还 有 很 多 。 
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图 12-6 旅游 地 理 位 置 感知 搜索 


图 12-7 是 一 个 地 理 位 置 感知 搜索 系统 的 架构 图 ， 系 统 主要 由 3 个 部 
分 构成 ， 首先 需要 构建 地 理 信息 数据 ， 用 来 存储 茶 地 的 地 理 信息 ， 比 如 
街道 名 称 、 建 筑 物 名 称 及 相对 位 置 等 信息 ， 这 些 数据 是 此 类 应 用 的 基础 
数据 。 地 理 位 置 感知 模块 通过 用 户 手 机 ， 可 以 获取 用 户 当 前 所 处 位 置 及 
朝 问 等 位 置信 息 ， 通 过 和 地 理 信息 相互 比较 和 推理 ， 获 知 用 户 此 时 面 对 
的 是 哪个 建筑 物 ， 之 后 根据 应 用 的 不 同 ， 从 应 用 相关 领域 知识 中 提取 与 
这 个 建筑 物 相关 的 知识 ， 并 显示 给 用 户 。 


-一 一 





a i | va 一 
pie 
= = : 
。 地理 信息 
图 12-7 ”地理 位 置 感知 搜索 系统 的 构架 图 











地 理 位 置 感知 搜索 可 以 看 做 是 增强 现实 技术 在 搜索 领域 的 具体 应 
用 ， 随 着 智能 手机 功能 的 丰富 化 ， 此 类 应 用 必 将 大 行 其 道 。 


12.6” 跨 语 言 搜 索 


随 着 全 球 化 进程 席 疮 全 球 ， 互 联网 所 提供 的 信息 资源 不 再 集中 于 责 
语 等 少数 几 种 语言 上 。 男 一 方面 ， 疯 语 非 母 语 的 互联 网 用 户 比重 也 在 快 
速 增长 ， 对 于 大 多 数 不 精 通 外 语 的 用 户 而 言 ， 熟 练 地 使 用 外 语 碍 询 所 需 
要 的 相关 的 其 他 语种 信息 较为 困难 ， 而 使 用 母语 查询 条 件 搜索 出 相关 的 
外 语 信息 ， 再 借助 于 辅助 翻译 工具 浏览 信息 则 相对 较为 容易 。 因 此 自动 
将 用 户 的 母语 得 询 条 件 翻译 为 相应 的 其 他 语种 碍 询 条 件 ， 再 使 用 搜索 引 
擎 查找 出 所 需 的 信息 ， 是 方便 用 户 获 取 网 上 资源 的 有 效 途 径 。 跨 语言 搜 





索 (CLIR: Cross-Language Information Retrieval) 研究 的 正 是 这 方面 的 
内 容 ， 它 是 信息 检索 研究 为 了 殉 服 语言 障碍 而 发 展 出 来 的 一 个 分 文 。 随 
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Google 目 前 已 经 提供 多 种 语言 之 间 的 路 语言 搜索 ， 图 12-8 是 一 个 具 
体 实例 ， 当 用 中 文 搜 索 “ 麻 省 理工 ”的 时 候 ， 排 在 第 1 位 的 是 抹 省 理工 学 
院 的 英文 主页 。 同 时 Google 也 在 大 力 发 展 机 器 翻译 技术 ， 当 用 户 搜索 到 
外 文 网 页 后 ， 可 以 使 用 机 器 翻译 技术 将 网 页 翻译 为 用 户 的 母语 ， 尽 管 目 
前 翻译 质量 不 算 非 常理 想 ， 但 是 用 户 可 以 获知 网 页 的 主要 内 容 ， 这 样 惑 
有 效 地 增加 了 搜索 范围 。 
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图 12-8 ”Google 的 跨 语 言 搜 索 功 能 








一 般 来 说 ， 解 决 用 户 查 询 与 查询 文档 集 之 间 的 语言 障碍 有 3 种 不 同 
的 扩 术 路 线 ， 既 可 以 将 查询 翻译 成 与 查询 文档 集 相 同 的 语言 ， 也 可 以 将 
查询 文档 集 翻 译 成 与 查询 相同 的 语言 ， 还 可 以 同时 将 两 者 映射 到 与 具体 
语言 无 关 的 语义 空间 。 由 于 碍 询 文档 集 一 般 都 很 大 ， 采 取 翻 译 碍 询 文档 
集 到 用 户 查 询 语 言 的 技术 路 线 代 价 太 高 ， 所 以 一 般 的 研究 集中 在 其 他 两 
种 技术 路 线 上 ， 其 中 最 音 见 的 还 是 将 用 户 碍 询 翻译 成 文档 集 的 语言 ， 比 
如 用 户 输 入 中 文 的 查询 “ 麻 省 理工 ”"， 跨 语言 搜索 系统 将 这 个 三 询 翻译 成 
MIT， 然 后 去 英文 的 网 页 里 搜索 ， 获 得 抹 省 理工 学 院 的 首页 。 

如 何 将 中 文 的 用 户 碍 询 翻译 为 英文 的 查询 ” 目前 主流 的 方法 有 3 
种 : 机 喜 翻 译 方法 、 双 语词 典 得 询 方法 及 双语 语 料 挖掘 方法 “参考 图 
12-9) 。 
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图 12-9 将 中 文 的 用 户 查 询 翻 译 为 英文 的 查询 
机 器 翻译 方法 非常 直观 ， 即 利用 现成 的 机 器 翻译 系统 直接 将 中 文 的 





用 户 碍 询 翻 译 为 英文 的 查询 。 但 是 这 个 方法 有 个 缺点 ， 一 般 用 户 碍 询 较 
短 ， 不 像 文章 里 的 语句 ， 没 有 碍 询 词 的 上 下 文 信息 ， 所 以 翻译 效果 一 般 
不 能 保证 。 

双语 词典 碍 询 方法 思路 也 很 简单 ， 对 于 中 文 碍 询 ， 直 接 碍 找 中 英 双 
语词 典 ， 将 可 能 的 英文 翻译 找 出 ， 问 题 的 关键 是 一 个 中 文 碍 询 词 往往 有 
多 个 对 应 的 翻译 项 ， 系 统 需 要 判断 哪个 翻译 项 才 是 正确 的 。 态 外 ， 双 语 
词典 规模 往往 不 够 大 ， 很 多 用 户 查 询 可 能 无 法 在 双语 词典 里 找到 ， 尤 其 
是 人 名 、 地 名 这 些 比较 灵活 使 用 的 命名 实体 ， 所 以 这 种 方法 需要 解决 以 
上 的 两 个 问题 。 

双语 语 料 挖掘 方 法 与 上 面 两 种 方法 思路 不 同 ， 是 通过 准备 好 的 双语 
语 料 ， 比 如 报道 相同 事件 的 中 文 和 英文 新 闻 ， 然 后 在 这 种 双语 语 料 基础 
上 计算 茶 个 查询 词 翻译 为 妨 外 一 种 语言 查询 词 的 概率 ， 选 择 翻 译 概率 最 
高 的 作为 查询 词 翻译 的 结果 。 这 种 方法 的 缺点 主要 是 获取 大 规模 的 双语 
语 料 有 较 大 难度 。 

对 于 一 个 全 球 性 的 搜索 引擎 来 次 ， 有 共 备 跨 语 言 搜索 功能 是 必然 的 发 

















展 趋势 ， 而 其 基本 技术 路 线 一 般 会 及 用 俘 询 翻译 加 上 网 页 的 机 器 翻译 这 
两 种 技术 手段 。 


12.7 多 媒体 搜索 


目前 主流 搜索 引擎 还 是 基于 文字 的 ， 即 使 是 常用 的 图 片 搜索 和 视频 
搜索 ， 用 户 输 入 人 三 询 也 基本 都 是 文本 方式 的 ， 在 搜索 引擎 内 部 也 是 通过 
图 片 标题 和 页 面 的 上 下 文 等 文本 进行 匹配 的 (参考 图 12-10) 。 这 种 基 
于 文本 来 搜索 图 片 、 音 频 、 视 频 等 多 媒体 信息 的 方法 有 其 天 然 缺 陷 ， 即 








用 户 碍 询 和 目标 媒体 的 巨大 差异 性 。 多 媒体 搜索 技术 则 弥补 得 询 和 搜索 
目标 之 间 的 差异 鸿沟 ， 使 得 用 户 可 以 用 图 片 等 多 媒体 内 容 作 为 查询 输 
入 ， 以 获得 更 高 的 搜索 准确 性 。 
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图 12-10 ”基于 文字 的 图 片 搜 索 


多 媒体 形式 除了 文字 外 ， 主 要 包括 图 片 、 音 频 和 视频 。 多 媒体 搜索 
比 纯 文 本 搜索 从 技术 上 要 复杂 ， 一 般 多 媒体 搜索 包含 4 个 主要 步骤 : 多 
媒体 特征 提取 、 多 媒体 数据 流 分 割 、 多 媒体 数据 分 类 和 多 媒体 数据 索引 
搜索 (参考 图 12-11) 。 








图 12-11 多 媒体 搜索 处 理 步 又 


多 媒体 特征 抽取 从 原始 的 图 片 、 首 频 或 者 视频 中 抽取 出 能 够 代表 其 
内 容 的 特征 ， 文 本 形式 一 般 是 以 关键 词 作为 特征 的 ， 而 多 媒体 特征 与 此 
不 同 ， 比 如 图 片 和 视频 中 的 视觉 特征 (色彩 、 纹 理 等 )， 首 频 文件 中 的 
音调 、 音 高 等 信息 。 这 样 将 原始 的 多 媒体 信息 转换 为 内 部 特征 表示 ， 供 
后 续 步 又 使 用 。 

对 于 视频 和 音频 流 来 说 ， 还 需要 进行 数据 流 分 割 工作 ， 这 两 种 媒体 
具有 时 间 维 度 信 息 ， 通 过 分 割 ， 将 连续 发 生 的 相同 或 者 相近 的 内 容 归 为 
一 个 场景 ， 在 场景 发 生 突然 或 者 较 大 变化 处 将 媒体 分 割 成 不 同 的 场景 。 

对 于 不 同 的 场景 ， 可 以 对 场景 分 类 ， 比 如 新 闻 播 报 的 场景 或 者 爆炸 
场景 等 ， 通 过 这 一 步 又， 等 于 给 每 个 场景 增加 了 语义 标签 。 

在 做 完 以 上 各 个 步骤 的 处 理 后 ， 多 媒体 搜索 系统 就 可 以 根据 其 特征 
对 媒体 片段 进行 索引 ， 之 后 用 户 可 以 输入 图 片 、 音 频 或 者 视频 片段 ， 通 
过 相似 度 计算 ， 找 出 和 用 户 查 询 相 近 的 多 媒体 内 容 。 


12.8 ”情境 搜索 


严格 来 说 ， 情 境 搜 索 并 非 一 项 拉 术 ， 而 是 一 种 融合 了 多 项 技术 的 产 
品 形态 。 之 前 介绍 的 个 性 化 搜索 、 社 会 化 搜索 、 地 点 感知 搜索 等 各 项 技 
术 都 是 文 持 情 境 搜索 这 一 产品 形态 的 基础 。 目 前 包括 Google 公 司 等 商业 
搜索 公司 都 在 大 力 提倡 这 个 概念 。 

所 谓 情 境 搜索 ， 就 是 能 够 感知 人 及 人 所 处 的 环境 ， 针 对 “此 时 此 地 
此 人 ”来 建立 模型 ， 试 图 理解 用 户 查 询 的 目的 ， 根 本 目标 还 是 要 理解 人 





























的 信息 需求 。 比 如 茶 个 用 户 在 苹果 专卖 店 附近 及 出 “ 绊 果 ”这 个 搜索 请 
求 ， 基 于 地 点 感知 及 用 户 的 个 性 化 模型 ， 搜 索引 擎 更 有 可 能 认为 这 个 奉 
询 是 针对 苹果 公司 的 产品 ， 而 非 对 水 果 的 需求 。 

图 12-12 给 出 了 情境 搜索 示意 图 ， 搜 索 系统 根据 用 户 过 去 的 查询 及 
ATK, ZEAMI Hai, AIHA R Bie — tts 
现 个 性 化 信息 的 用 户 模 型 。 同 时 ， 环 境 感 知 模型 可 以 获取 用 户 发 出 碍 询 
的 时 间 、 地 点 、 周 边 环境 等 情景 信息 。 在 众多 与 用 户 < 此 时 此 地 此 人 ”的 
相关 信息 的 帮助 下 ， 对 用 户 发 出 的 查询 做 出 更 加 合理 的 解释 ， 更 清楚 地 
了解 用 户 的 信息 需求 。 忆 体 而 言 ， 情 境 搜索 需要 的 各 项 技术 还 不 够 成 
熟 ， 这 类 产品 还 有 相当 大 的 发 展 空间 和 潜力 。 
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《这 就 是 搜索 引擎 核心 技术 详解 》 读 者 交流 区 


尊敬 的 读者 : 

感谢 您 选择 我 们 出 版 的 图 书 ， 您 的 支持 与 信任 是 我 们 持续 上 升 的 动 
力 。 为 了 使 您 能 通过 本 书 更 透彻 地 了 解 相 关 领 域 ， 更 深入 的 学 习 相 关 技 
术 ， 我 们 将 特别 为 您 提供 一 系列 后 续 的 服务 ， 包 括 : 

1. 提供 本 书 的 修订 和 升级 内 容 、 相 关 配 套 资 料 ; 

2. 本 书 作 者 的 见面 会 信息 或 网 络 视频 的 沟通 活动 ; 

3. 相关 领域 的 培训 优惠 等 。 

您 可 以 任意 选择 以 下 四 种 方式 之 一 与 我 们 联系 ， 我 们 都 将 记录 和 保 
存 您 的 信息 ， 并 给 您 提供 不 定期 的 信息 反馈 。 

1. 在 线 提交 

登录 ww.broadview.com.cn/14865， 卦 写本 书 的 读者 调 
EER 


2. 电子 邮件 
您 可 以 发 邮件 至 jsj@phei.com.cn 或 


editor@broadview.com.cn. 





3. 读者 电话 
您 可 以 直接 拨打 我 们 的 读者 服务 电话 : 010-88254369. 
4. 信件 





您 可 以 写 信 至 如 下 地 址 : 北京 万 寿 路 173 信 箱 博文 视点 ， 
Hs: 100036. 

您 还 可 以 告诉 我 们 更 多 有 关 您 个 人 的 情况 ， 及 您 对 本 书 的 意见 、 评 
论 等 ， 内 容 可 以 包括 : 

(1) 您 的 姓名 、 职 业 、 您 关注 的 领域 、 您 的 电话 、E-mail 地 址 或 
通信 地 址 ; 

(2) 您 了 解 新 书信 息 的 途径 、 影 响 您 购买 图 书 的 因素 ; 

(3) 您 对 本 书 的 意见 、 您 读 过 的 同 领域 的 图 书 、 您 还 希望 增加 的 
图 书 、 您 希望 参加 的 培训 等 。 








如 果 您 在 后 期 想 停止 接收 后 续 资 讯 ， 只 需 编 写 邮 件 “ 退 订 十 需 退 订 
的 邮箱 地 址 ?发 送 至 邮箱 : market@broadview.com.cn 即 可 取消 服务 。 








同时 ， 我 们 非常 欢迎 您 为 本 书 撰写 书评 ， 将 您 的 切 届 感 
受 变 成 文字 与 广大 书 友 共享 。 我们 将 挑选 特别 优秀 的 作品 转 
载 在 我 们 的 网 站 (www.broadview.com.cn) 上 ， 或 推荐 至 
CSDN.NET 等 专业 网 站 上 发 表 ， 被 发 表 的 书评 的 作者 将 获得 
价值 50 元 的 博文 视点 图 书 奖 励 。 











更 多 信息 ， 请 关注 博文 视点 官方 微 博 : 


http://t.sina.com.cn/broadviewbj. 





| 我 们 期 待 您 的 消息 ! 
博文 视点 愿 与 所 有 爱 书 的 人 一 起 ， 共 同学 习 ， 共 同 进步 ! 


通信 地 址 : 北京 万 寿 路 173 信 箱 ”博文 视点 〈100036) ”电话 : 
010-51260888 
E-mail: jsj@phei.com.cn, editor@broadview.com.cn 


www.phei.com.cn 
www.broadview.com.cn 


